Tietolinja

Tietolinja
02/2005

Kansallinen metadataformaatti elektronisille opinnäytteille

Jani Saijos
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20051862


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Taustaa

Kansallista metadataformaattia elektronisille opinnäytteille alettiin vakavammin pohdiskella Helsingin yliopiston kirjastossa loppuvuodesta 2004. Lähtökohtana oli kaksi toisiinsa liittyvää hanketta: Helsingin yliopiston elektronisia opinnäytteitä julkaisevan E-thesis-palvelun siirtäminen ENCompass-järjestelmään sekä Helsingin yliopiston väitöstietohanke. Väitöstietohankkeen tarkoituksena on luoda järjestelmä väittelijöiden väitöstietojen ja -tiivistelmien keskitettyyn käsittelyyn. Väitöstietotyöryhmä esitti tämän järjestelmän rakentamista E-thesis-palvelun yhteyteen ENCompass-järjestelmää hyödyntäen. Koska ENCompass-järjestelmä perustuu metadatan käyttöön, oli tarve sopivalle metadataformaatille ilmeinen.

Formaatin suunnittelu

Jo suunnittelun alkuvaiheessa tiedostettiin, että myös muilla yliopistoilla oli tarvetta kuvailla opinnäytteitänsä. Lisäksi formaatin haluttiin olevan käyttökelpoinen myös ammattikorkeakouluille. Esimerkiksi ENCompassia oli tarkoitus hyödyntää Helsingin yliopiston lisäksi useissa muissa korkeakouluissa ja erityisesti juuri opinnäytteiden suhteen. Jotta samaa työtä ei turhaan tehtäisi useassa eri paikassa ja mahdollisesti päädyttäisi toisistaan hieman poikkeaviin lopputuloksiin, päätettiin tehdä yhteistyötä muiden korkeakoulujen kanssa ja tehdä formaatista kansallinen.

Koska eri korkeakouluissa käytetään erilaisia järjestelmiä kuvailutiedon hallintaan ja koska kuvailutarpeet vaihtelevat, pitää formaatin olla suhteellisen joustava. Se ei saa olla sidottu mihinkään tiettyyn käyttöympäristöön. Koska kaikkiin eri kuvailutarpeisiin on mahdotonta varautua etukäteen, päätettiin metadataformaattiin sisällyttää vain sellaista tietoa, mitä mahdollisimman moni tarvitsisi. Korkeakoulut voisivat sitten itse tarpeidensa mukaan laajentaa yhteisesti sovittua joukkoa tai ehdottaa siihen lisäyksiä, jos niille uskotaan olevan laajempaakin käyttöä.

Maailmalta ei onnistuttu löytämään mitään sellaisenaan suoraan Suomen oloihin sopivaa valmista ratkaisua, joka olisi ollut samalla sekä ilmaisuvoimainen että kuitenkin yksinkertainen ja joustava. Lopulta formaatti päätettiinkin kehittää itse ja perustaa se Dublin Coreen, joka on hyvin tunnettu ja kansainvälinen elektronisten resurssien hallintaan kehitetty formaatti. Tunnettavuuden lisäksi Dublin Coren etuihin voidaan laskea se, että OAI-PMH käyttää sitä ja että sitä tukevia ohjelmistoja on runsaasti, mukaan lukien ENCompass. OAI-PMH on protokolla, joka mahdollistaa metatietojen haravoimisen.

Tarpeet opinnäytteiden kuvailutiedolle ovat moninaiset, joten Dublin Coren yksinkertaista rakennetta ja semantiikkaa piti tarkentaa. Jokaiselle kentälle mietittiin määritelmä opinnäytteen näkökulmasta. Päätettiin, onko kenttä pakollinen, voiko sitä toistaa sekä laadittiin tarkempi kuvaus kentästä. Lisäksi joissakin kentissä määrättiin käytettäväksi jotain tiettyä merkintäjärjestelmää. Tehtyjä luonnostelmia lähetettiin kommentoitavaksi muille korkeakouluille. Tavoitteena kehitystyössä oli käyttää mahdollisimman paljon jo valmiita ratkaisuja sen sijaan, että keksittäisiin kokonaan uusia käytäntöjä.

Alunperin formaattia ajateltiin käytettäväksi vain elektronisten opinnäytteiden kanssa. Ilmeni kuitenkin, että myös painettuja opinnäytteitä pitäisi pystyä kuvailemaan sen avulla. Formaattia päivitettiinkin siten, että se on käyttökelpoinen myös painettujen töiden suhteen. Ensisijaisen kuvailun kohteena on kuitenkin elektroninen työ ja jos siitä on olemassa painettu versio, voidaan sen tiedot sijoittaa rinnakkaisen ilmiasun tietoihin. Jos pelkästään painetusta työstä ilmestyy myöhemmin elektroninen versio, tulisikin kuvailutietoja muuttaa siten, että elektroninen versio on ensisijainen kuvailun kohde. Metadataformaatissa on siten noudatettu Dublin Coren 1:1-periaatetta, jonka mukaan yhtä ilmentymää kohden on yksi kuvailu.

Lopputulos

Lopputuloksena ehdotuksessa on 23 kenttää, joista kuusi on pakollista, esimerkiksi tekijän nimi ja opinnäytteen nimeke, ja 17 on vapaaehtoista, esimerkiksi opinnäytteen tiivistelmä. Ehdotukseen liitettiin mukaan myös esimerkkejä formaatin käytöstä sekä kaavio sen vastaavuudesta MARC-formaattiin. Viimeisin versio koko ehdotuksesta on saatavilla osoitteesta: http://ethesis.helsinki.fi/metadata/. Jyrki Ilvan Otaniemessä 25.5.2005 yliopistokirjastojen julkaisupäivässä pitämä esitys formaatista puolestaan löytyy osoitteesta http://lib.tkk.fi/Julkaisupaiva2005/.

Mitään suuria muutoksia ei metadataformaattiin ole näillä näkymin enää tulossa. Sen sijaan pieniä korjauksia ja tarkennuksia tehdään varmasti jatkossakin. Yhteensopivuus jo tehtyjen kuvailujen kanssa pyritään kuitenkin säilyttämään. Tällä hetkellä formaatti on käytössä useimmissa niissä korkeakouluissa, jotka käyttävät ENCompassia opinnäytetöidensä kuvailuun. Formaatin kehittelyyn ovat antaneet oman panoksensa myös sellaiset korkeakoulut, jotka eivät sitä tällä hetkellä käytä. Jos korkeakoulun käyttämä oma metadataformaatti on tarpeeksi joustava, ei sen konvertointi tarvittaessa kansalliseen metadataformaattiin pitäisi olla ongelmallista.

Helsingin yliopistossa uusi metadataformaatti pääsee tositoimiin väitöstietohankkeessa luodun lomakkeen myötä. Lomake on tarkoitus ottaa käyttöön kevätlukukauden 2006 alussa. Lomakkeen syötteet käsittelevä ohjelma luo väittelijän syöttämien tietojen perusteella automaattisesti useita eri tiedostoja. Yksi luotavista tiedostoista on ENCompassia varten tarkoitettu XML-tiedosto, joka noudattaa opinnäytteiden metadataformaattia. Lomakkeen käyttöönoton jälkeen kaikki uudet väitöskirjat ovat löydettävissä ENCompassin kautta. Tämän jälkeen on tarkoitus aloittaa vanhojen väitöskirjojen ja muiden E-thesiksessä julkaistujen opinnäytetöiden tietojen tallentaminen metadataformaattiin, minkä jälkeen myös ne voidaan siirtää ENCompassiin.

Laajemmin ajateltuna on kansallinen metadataformaatti myös askel kohti opinnäytteiden kansallista hakupalvelua, sillä metadatan semanttinen yhteismitallisuus mahdollistaa järkevien hakupalveluiden toteuttamisen. Milan Kundera kirjoittaa akateemisista opinnäytteistä romaanissaan Olemisen sietämätön keveys seuraavasti: "Täyteen kirjoitetut liuskat kerääntyvät arkistoihin, jotka ovat hautausmaita surullisempia, sillä niissä ei käy ketään edes pyhäpäivänä." Vaikka lainaus koskenee enemmän paperisia töitä, olisi kansallinen hakupalvelu mahdollisesti yksi ratkaisu parantaa opinnäytteiden löydettävyyttä ja näkyvyyttä sekä siten lisätä niiden käyttöä - myös pyhäpäivisin.

 


Tietolinja 02/2005

Jani Saijos, atk-suunnittelija
Helsingin yliopiston kirjasto
PL 26, 00014 HELSINGIN YLIOPISTO
Email: jani.saijos(at)helsinki.fi