Tietolinja

Tietolinja
3/1999


PÄÄKIRJOITUS

ARTIKKELIT


Asiakirjojen metadataformaatti suositukseksi

Marit Olander


Sähköisen tiedon tuotannon ja tiedonvälityksen kehittyessä Helsingin yliopiston kirjaston toimiala on laajentumassa myös perinteisen kirjastomaailman ulkopuolelle. Tästä on osoituksena "Asiakirjojen kuvailuformaatti", jonka JUHTA (Julkisen hallinnon tietohallinnon neuvottelukunta) hyväksyi 19.10.199 JHS-suositukseksi 143. JHS-suosituksia käytetään lähinnä tietohallinnon standardointiin, ja ne koskevat valtionhallinnon lisäksi myös kunnallishallintoa.

Sähköisten asiointimahdollisuuksien kasvun myötä myös asiakirjan käsite on laajentunut kattamaan elektroniset asiakirjat. Asiakirjojen tuotanto ja jakelu internetin välityksellä alkoi Suomessa 90-luvun puolivälissä. Lähivuosina yhä suurempi osa asiakirjoista tuotetaan pelkästään elektronisessa muodossa. Usein ne myös tarjotaan kansalaisille luettaviksi suoraan verkon kautta. Asiakirjojen internet-jakelu ei takaa sitä, että aineisto olisi helposti kansalaisten löydettävissä. AltaVistan kaltaisissa kokoteksti-indekseissä elektroniset asiakirjat katoavat helposti muun verkkoaineiston joukkoon.

Tehokkain keino parantaa tärkeän aineiston näkyvyyttä on kuvailutietojen eli metadatan lisääminen suoraan asiakirjoihin. Metadata helpottaa aineiston hakua, paikallistamista, tunnistamista ja säilyttämistä sähköisessä ympäristössä. Kuvailutiedot voidaan tallentaa asiakirjaan jo dokumenttia kirjoitettaessa, ja sopivilla apuvälineillä (tallennusalusta, metadataa tukeva asiakirjapohja) tallennuksen vaatima lisätyö on hyvin vähäinen etuihin verrattuna.

Julkisen hallinnon tietohallinnon neuvottelukunta JUHTA perusti marraskuussa 1998 metadatatyöryhmän, jonka tavoitteena oli määritellä suomalaisten julkishallinnon asiakirjojen kuvailuformaatti. Työryhmään kuuluivat: puheenjohtajana Juha Hakala (Helsingin yliopiston kirjasto), Erkki Karimaa (Kuntaliitto), Mikael Kiviniemi (Valtiovarainministeriö), Markku Mäenpää (Kansallisarkisto), Hannu Pelkonen (Posti Oy) Riitta Poukka (Tilastokeskus), Anja Stenius (Helsingin kaupungin sosiaalivirasto) ja Pentti Vesanen (Valtioneuvoston kanslia). Sihteerinä toimi Marit Olander Helsingin yliopiston kirjastosta.

Työryhmä kokoontui kuusi kertaa ja jätti JUHTAlle syyskuussa 1999 suositusehdotuksen "Asiakirjojen kuvailuformaatti", joka hyväksyttiin JUHTAn kokouksessa. Työryhmän kotisivulla oli jo työskentelyn aikana nähtävillä formaattiluonnos, joten virallisten lausuntojen lisäksi saatiin työskentelyprosessin kuluessa runsaasti palautetta, joka voitiin ottaa huomioon lopullisessa ehdotuksessa. Formaatin työstämisen aikana oltiin yhteydessä mm. Tietoaineiston luokitustyöryhmään, jonka puheenjohtaja Kaarlo Korvola vieraili työryhmän kokouksessa. Juha Hakala oli yhteydessä Dublin Coren kehittäjiin keskustellen formaatista mm. OCLC:n tutkijan Stuart Weibelin kanssa.

Formaatti määrittelee joukon asiakirjojen kuvailuelementtejä (kuten tekijä, nimeke ja aihe) sekä liitteenä syntaksit kuvailutietojen tallentamiseen HTML- tai XML-dokumentteihin. Jos asiakirjan tiedostoformaatti ei ole HTML tai XML, metadata voidaan tallentaa erilliseen HTML- tai XML-tiedostoon, johon lisätään URL-linkki kuvailtuun asiakirjaan.

Formaatti perustuu kansainvälisen Dublin Core -standardin versioon 1.1. Asiakirjoja koskevien kuvailujen ja muiden dokumenttien metadatan yhteismitallisuuden säilyttäömiseksi suuria muutoksia ei ole tehty. Asiakirjojen kuvailuformaatti on terminologialtaan sovitettu asiakirja-aineistolle sopivaksi, ja mukana on myös muutamia erityisesti asiakirjojen kuvailussa tarvittavia ominaisuuksia. Työryhmä on pyrkinyt kuitenkin ennakoimaan Dublin Core :n versiota 2.0 suosittamalla eräiden kenttien tyhjäksi jättämistä ja korvaamista toisilla kentillä tarkenteita käyttäen. Dublin Coren joustavuus perustuu juuri tarkenteiden käyttöön, vaikka englanninkielinen Dublin Coren versio 1.1 ei sisällä määrittelyjä tarkenteille. Kolmen kentän (päivämäärä, suhde ja kate) suomenkielisissä määrityksissä on hyödynnetty niille de facto sovittuja tarkenteita (subelement), koska ilman niitä näiden kenttien käyttö on ongelmallista.

Suomalaisen Dublin Core -version vastuuorganisaationa Helsingin yliopiston kirjasto ylläpitää asiakirjojen kuvailuformaattia. Formaatti on saatavissa HTML-muodossa verkosta JUHTA:n sivuilta osoitteesta http://www.intermin.fi/juhta/suositukset/jhs143.htm.

Formaatissa mahdollisimman vähän pakollisia kenttiä

Kuvailua voidaan tarvittaessa myös syventää käyttäen tarkenteita. Niiden avulla voidaan ilmaista mm. käytetty kontrolloitu sanasto tai päivämäärän tallennusstandardi. Kaikkia tarkenteita ei ole vielä Dublin Core versiossa 1.1 standardoitu, käytännön projekteissa niiden käyttö on kuitenkin havaittu välttämättömäksi. Niissä tapauksissa, joissa vallitsee suuri yksimielisyys Dublin Coren kehittäjien keskuudessa on tarkenteita asiakirjojen kuvailuformaatissa esitetty käytettäväksi. Metadatan hakujärjestelmät on rakennettava niin, että ne hyödyntävät tarkenteita mahdollisimman laajasti.

Kuvailun yksinkertaisuuden vuoksi on Dublin Coren 15 kentästä pakollisiksi sovittu vain neljä: nimeke, tekijä, aihe ja päivämäärä, sekä asiakirjakentistä yksi: asiakirjan laji.

Nimeke-kentän sisältönä on tekijän, laatijan tai julkaisijan antama asiakirjan nimi, otsikko tai asia. Tekijä-kenttään tallennetaan asiakirjan laatijaa tai vastuutahoa koskevat tiedot. Aihe-kenttään tulee asiakirjan aihealueen kuvaus luokitusjärjestelmää (diaari- tai arkistokaavaa tms.) käyttäen, asiasanoin tai vapaasti kuvaillen. Päivämäärä-kentän oletusarvona on asiakirjan julkistamisaika, mutta tarkenteita käyttämällä voidaan kentässä ilmaista hyvin erilaisia asiakirjan elinkaareen liittyviä ajankohtia: esimerkiksi sopimusasiakirjoissa sopimuksen hyväksymispäivä, asiakirjan voimassaoloaika tai säilytysaika.

Vaikka asiakirjan yksikäsitteisesti identifioiva tunniste-kenttä ei olekaan pakollinen, on se hyvin keskeinen suurimmalle osalle asiakirjoja. Yksittäiselle asiakirjalle voidaan tallentaa tunniste lisäämällä diaari- tai rekisterinumeroon juokseva numero. Kansallisella tasolla koodista saadaan uniikki käyttämällä esimerkiksi diaarikoodin edellä organisaation lyhennettä tai kunnan kohdalla kuntatunnusta. Julkaisusta voidaan käyttää perinteisiä tunnuksia kuten ISBN:ää tai kansallisbibliografian ID-tunnuksia. Jos perinteiset tunnukset eivät sovi, voidaan käyttää diaarinumeroa tai muuta rekisterinumeroa. Kaikki perinteiset tunnukset voidaan esittää URN-tunnuksina (Uniform Resource Name), jolloin aineisto on tulevaisuudessa löydettävissä pysyvän tunnuksen avulla. Helsingin yliopiston kirjaston URN-jakeluohjelma on käytettävissä osoitteessa http://www.lib.helsinki.fi/cgi-bin/urn.pl. Tämä ohjelma luo kansallisbibliografian tunnusnumeron perusteella URN-tunnuksen.

Asian diaaritunnus tai muu tunnus voidaan tallentaa suhde-kenttään käyttäen tarkennetta IsPartOf, jotta samaan kokonaisuuteen liittyvät asiakirjat olisivat helposti haettavissa. Suhde-kentässä voidaan kuvata eri tarkenteiden avulla asiakirjojen suhteita, esimerkiksi, jos asiakirja perustuu aiempaan asiakirjaan, voidaan vanhaan dokumenttiin viitata käyttäen IsBasedOn-tarkennetta.

Dublin Core versiossa 1.1. oli sopivasti kuin asiakirjojen kuvailua varten kate-kenttää laajennettu ajan ja paikan katteen lisäksi myös hallinnon alaa koskevaksi. Hallinnon ala ilmaistaan nimeämällä kyseessä oleva yksikkö, virasto tms. kate-kenttään voidaan esimerkiksi diaarikaavaa käyttäen kirjata myös se tehtävä, jonka piiriin asiakirja kuuluu.

Dublin Coren laajentaminen asiakirjakentillä

Asiakirjan laji kuvaa sen käyttötarkoitusta ja on pakollinen (esimerkiksi aloite, esitys/ehdotus, kantelu, lausuntopyyntö, selvitys, säädös, toimeksianto jne.). Yhteismitallisuuden varmistamiseksi laji tulee pyrkiä valitsemaan valmiista luettelosta, jota ylläpidetään keskitetysti (http://www.lib.helsinki.fi/dublin_core/asiaklaji.html). Koska eri virastoilla ja laitoksilla on paljon myös erityisiä lajeja, on keskitetty luettelo pidettävä melko yleisellä tasolla. Tarvittaessa käytetään omia virastokohtaisia lajeja. Asiakirjan laji on keskeinen haun kannalta asiakirjan kuvailussa. Sen sijaan muut asiakirjaformaatin omat kentät:, julkisuus, versio, ympäristö, hinta ja vastaanottaja eivät ole pakollisia.

Julkisuus-kentässä voidaan ilmaista, että asiakirja sisältää salassa pidettävää tietoa. Mahdollista on myös tallentaa tieto, että asiakirja tulee julkiseksi myöhemmin, jolloin päivämäärä-kenttään voidaan tallentaa julkiseksi muuttumisen ajankohta. Tietoturvaluokka voidaan tarvittaessa tallentaa tähän kenttään käyttäen omaa tarkennetta.

Versio-kenttään tallennetaan asiakirjan versio esimerkiksi desimaalilukuna. Ympäristö-kenttään tallennetaan erityisesti asiakirjan pitkäaikaissäilytyksessä tarvittavat erityiset laitteisto- ja ohjelmistovaatimukset. Hinta-kentässä voidaan ilmoittaa kuvailtavan asiakirjan hinta. Vastaanottaja-kentässä voidaan ilmoittaa asiakirjan vastaanottaja (esim. virasto tai lautakunta).

Suosituksen toteuttaminen ja jatkotoimenpiteet

Asiakirjojen kuvailu on pyritty pitämään niin yksinkertaisena, ettei se vaadi mitään erikoistaitoja. Tavoitteena on, että asiakirjojen laatijat voivat itse lisätä myös kuvailutiedot. Tallennuksen helpottamiseksi loppukäyttäjälle kehitetään formaatin käyttöopas ja muita apuvälineitä. Yleisten ohjeiden lisäksi tarvitaan virastokohtaista ohjeistusta, esimerkiksi mitä diaarikaavaa käytetään tai mitä tietoja tallennetaan. Asiakirjojen laatijoiden ja loppukäyttäjien ei ole välttämätöntä perehtyä formaattiin ja sen liitteenä oleviin syntaksimäärityksiin.

Helsingin yliopiston kirjasto ylläpitää suomalaista Dublin Corea tukevaa tallennusalustaa (http://www.lib.helsinki.fi/cgi-bin/dc.pl). Se tuottaa Dublin Core -tietueita HTML 3.2 ja 4.0 -muodossa sekä XML-muodossa . Tallennusalustasta on rakennettu myös prototyyppi asiakirjojen kuvailua varten (http://elektra.helsinki.fi/cgi-bin/juhta.pl).

Asiakirjojen löytymistä helpottaa lähitulevaisuudessa rakennettava kansallinen metadatatietokanta, jonka kautta asiakirjojen ja muiden internet-dokumenttien sisältämät metatiedot ovat tehokkaasti haettavissa.

Asiakirjojen kuvailuformaatin valmistuminen ei riitä, vaan työryhmän on varmistettava myös jatkotoimenpiteet: Suosituksen toteuttamiseksi tarvitaan apuvälineitä, joiden avulla suosituksen mukaista metadataa voidaan tallentaa, indeksoida ja konvertoida toiseen muotoon. Metadatan tallennuksessa voidaan käyttää erillisvälineitä tai työntekijöiden normaaliin tekstinkäsittely-ympäristöön upotettuja työkaluja.

Suosituksen mukaisen kuvailun käyttöönotossa tarvitaan yhteistyötä asiakirjajärjestelmien kehittäjien kanssa. Näin varmistetaan, että järjestelmät tukevat mahdollisimman hyvin kuvailun vaivatonta syntymistä osana asiakirjan laatimisprosessia.

Marit Olander, atk-erikoissuunnittelija
Helsingin yliopiston kirjasto
email: Marit.Olander@helsinki.fi

Lisätietoja:

Tietolinja 3/1999