Tietolinja

Tietolinja
1/2001


PÄÄKIRJOITUS

ARTIKKELIT

UUTISIA,
AJANKOHTAISTA

Metadatan hyödyntäminen elektronisten aineistojen pitkäaikaissäilytyksessä

Jani Stenvall
Helsingin yliopiston kirjasto



Elektronisten julkaisujen pitkäaikaissäilytys ei ole yksinkertainen tehtävä. Nämä julkaisut ovat riippuvaisia teknisestä ympäristöstä, jonka avulla niitä voidaan käyttää. Elektroninen julkaisu koostuu biteistä mutta pelkkä bittien säilytys ei riitä vaan tarvitsemme tietoa siitä miten nämä bitit on tulkittava. Tästä syystä metadataa eli kuvailutietoja tarvitaan elektronisten julkaisujen pitkäaikaissäilytyksessä. Ideana on dokumentoida julkaisun säilytyksen kannalta keskeiset tiedot ja sitä kautta parantaa julkaisujen säilyvyyttä. 

Elektronisten aineistojen säilytys

Elektroniset julkaisut, joita olemme luoneet, tuottaneet, kopioineet, muokanneet, siirtäneet, myyneet ja jaelleet ovat osa tämän päivän kulttuurista elämää, joka kuuluu myös jälkipolville siirrettävään perintöön. Periaatteessa elektroninen aineisto säilyy ikuisesti, koska se on helppo uusia - kopio on identtinen alkuperäisen kanssa. Käytännössä tilanne on kuitenkin hankalampi, johtuen esimerkiksi laitteistojen, ohjelmistojen ja tiedostoformaattien kehityksestä. Uudet tietotekniset ympäristöt hautaavat alleen edellisen sukupolven ympäristöt ja niistä riippuvaiset julkaisut. Bittimuodossa tallennetun aineiston alkuperäinen käyttöympäristö katoaa ja samalla ehkä myös aineiston käytön edellytykset.

Suurin ongelma on siis ennen kaikkea tietotekniikan alueella tapahtuva jatkuva muutos ja kehittyminen. Kilpailu on kovaa ja uusia tuotteita työnnetään jatkuvasti markkinoille. Käytössä olevat sovellusohjelmat ja laitteistot voivat vanhentua nopeasti. Muutama vuosi sitten käytössä olleilla laitteilla ja ohjelmistoilla tehdyt dokumentit eivät välttämättä ole enää luettavissa tämän päivän laitteisto- ja ohjelmistoympäristöissä. Yleinen sanonta onkin, että elektroninen informaatio säilyy ikuisesti - tai viisi vuotta, riippuen siitä kumpi tulee ensimmäiseksi. Sen sijaan painettu kirja on staattinen, selkeästi rajattu kohde ja sen käyttämisessä tarvittava "laitteisto", ihmisnäköön pohjautuva lukeminen, tuskin vanhentuu käyttökelvottomaksi.

Myös tietovälineisiin liittyvät ongelmat vaikeuttavat säilytystä. Informaation tallennuksessa käytettävät tietovälineet eivät ole fyysisesti riittävän kestäviä – levykkeen tiedot katoavat muutamassa vuodessa, ja CD ROM –levykin kestää vain muutamia vuosikymmeniä. Toisaalta ajan myötä kaikki tietovälineet vanhentuvat uusien välineiden vallatessa markkinat. Vaikka uusi arkistointikelpoinen ja vuosisatoja kestävä tietoväline kehitettäisiin, se todennäköisesti vanhentuisi sen vuoksi, että uudemmat tietovälineet ovat tallennuskapasiteetiltaan ja nopeudeltaan parempia, helppokäyttöisempiä ja halvempia. Esimerkiksi lerput (5,25" levyke) ovat hävinneet lähes täysin käytöstä ja nykyiset korputkin (3,5") ovat matalan tallennuskapasiteettinsa vuoksi katoamassa työpöydiltämme. Vaikka lerppu sinänsä olisi edelleen lukukelpoinen, on vaikeaa löytää lerppuasemaa jossa levykkeellä oleva data voitaisiin lukea.

Elektronisen julkaisemisen monimuotoisuudesta johtuva suuri tiedostoformaattien määrä ei helpota säilytyksen toteuttamista. Jos digitaalisessa arkistossa on kuva- ja tekstitiedostoja kymmenissä eri formaateissa, kokoelman hallinta ja käyttö on vaikeaa.

Vaikka ongelmakenttä on laaja ja vaikea, ei elektronisten julkaisujen pitkäaikaissäilytyksestä kannata maalata liian suurta pirua seinälle. Kansainvälisesti tätä ongelmavyyhteä on lähestytty erilaisten projektien kautta. Brittien Cedars, EU:n Nedlib ovat ehkä tunnetuimpia ja joiden pohjalta on saatu ideoita laajempiin jatkotutkimuksiin. Cedars-projektiin voi tutustua osoitteessa http://www.leeds.ac.uk/cedars/ ja Nedlibin tuloksista saa lisätietoa osoitteesta http://www.kb.nl/coop/nedlib/.

Elektronisten aineistojen säilytykseen on esitetty erilaisia menetelmiä, mm. kopiointi, konversio ja emulointi. Kopioinnilla voidaan välttää tietovälineen (esim. CD-ROM-levyn) rappeutumisen aiheuttama tiedon katoaminen. Konvertoinnin avulla aineisto voidaan siirtää tai muuntaa sellaiseen muotoon, että ohjelmistoympäristön vanhenemisesta huolimatta aineistoa voidaan käyttää nykyisessä tietoteknisessä ympäristössä. Emuloinnin avulla käytöstä poistunutta laitteistoa voidaan imitoida uudessa ympäristössä, jolloin vanhalle laitteistolle tehdyt dokumentit ja julkaisut ovat myös käytettävissä uudessa laitteisto- ja ohjelmistoympäristössä. Juha Hakalan artikkeli tässä Tietolinjan numerossa esittelee tarkemmin näitä elektronisten aineistojen säilytyksen jollain tavalla ratkaisevia menetelmiä.

Riippumatta siitä mitä menetelmää pitkäaikaissäilytyksessä käytännössä toteutetaan ongelmaksi muodostuu julkaisujen ja toimintojen hallitseminen. Tähän ongelmaan voidaan ratkaisua hakea metadatan puolelta.

Metadata osana ratkaisua?

Metadata-termistä on tullut tietyssä mielessä hyvinkin muodikas sana. Sitä käytetään monissa eri yhteyksissä ja usein hieman epämääräisestikin. Metadata on termi, jonka käyttö on liitetty vahvasti tietoverkkoihin, elektronisiin julkaisuihin ja niiden kuvailutietoihin. Yleisesti käytetty englanninkielinen määritelmä metadatalle on "data about data". Suomenkieleen tämä tuottaa hieman ongelmia sillä yksiselitteistä suomennosta sanalle "data" ei voida antaa. Voimme kuitenkin määritellä metadatan tiettyä kohdetta (esim. verkkojulkaisua) kuvailevien tietojen rakenteiseksi kokonaisuudeksi.

Perinteisen aineiston säilytyksessä metadata-tyyppisellä tiedolla on lähinnä tiedonhakuun liittyviä toimintoja. Nykyisen käsityksen mukaan metadatalla tulee todennäköisesti olemaan tärkeä rooli erilaisissa elektronisten julkaisujen pitkäaikaissäilytykseen liittyvissä toimintamalleissa tai strategioissa ja sitä kautta itse julkaisujen käytössä. Elektronisista julkaisuilla on ominaisuuksia, joiden merkitys on tärkeä ajatellen niiden käyttöä ja nämä ominaisuudet voidaan todennäköisesti jollakin tasolla ilmaista metadatan avulla. Elektroniset aineistot ovat monimuotoisia, mutta perusidea - elektronisuus (tai digitaalisuus) - on kaikilla sama, jolloin metadatan rooli on pyrkiä erottelemaan julkaisut toisistaan ja auttaa niiden tulkitsemisessa. Intuitiivisesti ajatus dokumentoinnista tai metatiedoista on selvästi välttämätön erilaisten julkaisujen käyttöä ja säilytystä silmällä pitäen. Metadata ei kuitenkaan ole itsessään mikään ratkaisu. Se toimii ainoastaan säilytyksen tukena.

Metadatan avulla voimme siis dokumentoida tietoja elektronisista julkaisuista, mikä auttaa meitä säilyttämään näitä julkaisuja tulevaisuuden lukijoille. Mitä tämä metadatan hyödyntäminen säilytysprosessissa sitten merkitsee? Esimerkiksi jos ajatellaan CD-ROM-arkiston pystyttämistä, niin pitäisi huolehtia siitä , että jokainen CD-ROM on kuvailtu pitkäaikaissäilytyksen kannalta riittävästi. Tämä tarkoittaa että rompun tekniset ominaisuudet ovat tiedossa: mihin käyttöjärjestelmään se on suunniteltu, mitkä ovat sen laitteistovaatimukset, tarvitaanko kenties äänikortti ja jos tarvitaan niin millainen. Mitä menetelmää on säilytyksessä hyödynnetty, tarvitaanko jokin emulaattori-ohjelma, pitääkö se asentaa koneelle, mistä asennustiedosto löytyy, onko rompun sisällöstä saatu tehtyä kopio jollekin muulle tietovälineelle esim. palvelimelle jne. Samoin arkiston hallinnan kannalta voi olla tarpeen kertoa muitakin yksityiskohtia CD-ROM tuotteesta: mitä säilytystoimenpiteitä on tehty, mistä voimme tietää että rompun sisältö on säilynyt eheänä, toimivatko kaikki rompun alkuperäiset piirteet vielä emulointiympäristössä jne. Näiden dokumentoitujen tietojen avulla elektronisessa arkistossa olevaa aineistoa voidaan paremmin hallita ja niiden käytön edellytyksiä voidaan pitää silmällä. Esimerkiksi jos tietyissä julkaisuissa käytetty tiedostoformaatti (esim. MSWordin doc-muoto) on täysin hävinnyt käytöstä, voimme metadatan avulla löytää kyseistä tiedostomuotoa olevat julkaisut elektronisesta arkistosta ja pyrkiä muuntamaan ne uudempaan, käytössä olevaan tiedostoformaattiin.

Kansainvälisesti metadatan käyttöä elektronisten aineistojen säilytyksessä on jo tutkittu. Usealla eri taholla on pyritty määrittelemään mitä tietoja elektronisten aineistojen pitkäaikaissäilytyksessä tarvitaan. Jo mainitut projektit Cedars ja Nedlib ovat kunnostautuneet myös tällä saralla. Molempien projektien näkökulma metadataan lähtee erityisen arkistointimallin, OAISin (Open Archival Information System) kautta. OAIS on yleinen elektronisen arkiston käsitemalli, joka jakaa tiedon tai informaation erilaisiin rakenneryhmiin. Informaation säilytyksen kannalta tarvitsee keskittyä mallissa oleviin kahteen rakenneryhmään: esitysmuotoinformaatioon ja säilytysinformaatioon. Näiden kahden ryhmän "sisälle" sekä Cedars että Nedlib ovat määritelleen joukon metadataelementtejä tai kenttiä pitkäaikaissäilytyksen tarpeisiin.

Esimerkiksi Nedlibin metadataelementit ovat karkealla tasolla seuraavia:

Esitysmuotoinformaatio
- laitteistovaatimukset
- käyttöjärjestelmä
- tulkki ja kääntäjä
- formaatti
- sovellus

Kuvausinformaatioon kuuluvat puolestaan:
- viittaustiedot (reference information, tietoja julkaisun tekijästä, nimekkeestä, sijainnista tms.)
- muuttumattomuus
- muutoshistoria

Pitkäaikaissäilytyksen ongelmat ovat osin teknisiä ongelmia. Elektroniset aineistot vaativat aina jonkinlaisen tietoteknisen ympäristön, jossa niitä käytetään, ja koska ideana on varmistaa julkaisun käytettävyys ja toiminnallisuus, vaaditaan metadatalta teknisiä tietoja. NEDLIBin metadatamääritys keskittyykin erityisesti näihin teknisiin ongelmiin (esitysmuotoinformaatio-osuus). Mukana on myös kuvausinformaation ryhmä, joka ei ole teknistä metadataa, mutta myös muita piirteitä olisi ehkä syytä ottaa mukaan pitkäaikaissäilytyksen metadataan. Näitä ovat mm. säilytyksen toteuttamiseen ja hallinnoimiseen liittyvät tiedot: käyttö- ja tekijänoikeudet, säilytysmenetelmien tarkempi dokumentointi sekä erilaista kontekstitietoa. Cedars on omassa metadatamäärityksessään huomioinut myös näitä piirteitä.

Myös Helsingin yliopiston kirjastossa on laadittu omaan toimintaan, lähinnä uudistuvaan vapaakappalelakiin soveltuvaa metadataelementtien ryhmää. Se ei varsinaisesti pohjaudu OAIS-malliin, mutta se on siihen sovellettavissa. Määritystä voidaan hyvin soveltaa sekä verkkojulkaisujen että teknisten tallenteiden kuvailussa. Metadatamäärityksen rakentamisessa on myös otettu huomioon se, että sen on palveltava sekä käyttäjää että elektronisia julkaisuja ylläpitävän arkiston toimintaa. HYKin määrityksessä on eroteltu kaksi pääryhmää, jotka vastaavat OAIS-mallin esitysmuoto- ja kuvausinformaatioryhmiä. Toinen ryhmä keskittyy säilytettävän kohteen teknisiin tietoihin ja toinen kohteen säilytyksessä vaadittaviin muihin tietoihin:

Tekninen metadata:
- Fyysinen tietoväline tai yhteyskäytäntö (protokolla)
- Tarvittava laitteisto
- Käyttöjärjestelmä
- Sovellusohjelmat ja lisätiedostot
- Kohteen kuvaus

Säilytyksen metadata:
- Tunnistus
- Alkuperä/autenttisuus
- Säilytysprosessi
- Oikeudet
- Suhteet (muihin julkaisuihin)
- Vastuulliset
- Huomautukset

Periaatteessa kaikki mahdollinen tieto, joka julkaisuun liittyy voi olla pitkällä aikavälillä hyödyllistä. Käytännössä joudutaan tyytymään kuitenkin vähäisempiin kuvailuihin, resurssien ja kannattavuuden kannalta katsoen. Mitä enemmän metadata voidaan luoda automaattisesti, sitä parempi. Esimerkiksi verkkojulkaisujen säilytyksessä pitäisi pyrkiä siihen että mitään yksittäisten sivujen/julkaisujen metadataa ei luoda yksitellen manuaalisesti. Tavoitteena on käsitellä dokumenttiryppäitä tai tyytyä verkkosivuista automaattisesti saatavaan tietoon.

Määrityksen soveltuvuus vapaakappalelain uudistuksen mukaisiin elektronisiin aineistoihin vaatii lisätestausta. Tarkemmin tämä metadatamääritys on esitelty EVA-projektin raportissa: Metadata elektronisten julkaisujen pitkäaikaissäilytyksessä, joka löytyy projektin verkkosivuilta http://www.lib.helsinki.fi/eva/raportit.html.

Yhteistyötä tarvitaan

Metadatamäärityksiä joissa elementtejä on pyritty listaamaan on monia ja niistä löytyy paljon yhdenmukaisuuksia mutta myös eroja. Tästä syystä RLG ja OCLC pyrkivät luomaan "yhteisen" kansainväliseen konsensukseen perustuvan metadataesityksen pitkäaikaissäilytyksen tarpeisiin. Ensimmäisessä vaiheessa on saatu aikaan selvitys keskeisistä metadatamäärityksistä, jonka pohjalta työtä on tarkoitus jatkaa. Tämä White Paper on luettavissa osoitteesta http://www.oclc.org/digitalpreservation/presmeta_wp.pdf.

Suomen vapaakappalelakia ollaan uudistamassa. Tarkoituksena on että laissa huomioitaisiin myös erilaiset elektroniset aineistot. Näin Helsingin yliopiston kirjastosta tulisi organisaatio, joka joutuu oikeasti tarttumaan toimeen ja miettimään miten verkkojulkaisut, sähkökirjat, elektroniset oppimateriaalit tai CD-ROMit säilytetään jälkipolville. Kirjastojen perinteestä nousevaa julkaisujen dokumentointia voidaan metadatan muodossa soveltaa tukemaan elektronisten julkaisujen säilyvyyttä, jossa erilaiset toimintamallit tai strategiat ovat avainasemassa. Luonnollinen paikka pitkäaikaissäilytykseen keskittyvälle metadatalle on kirjaston normaalit MARC-muotoiset tietokannat.

Elektronisten aineistojen pitkäaikaissäilytyksen ongelmiin törmätään varmasti monilla eri aloilla ei vain Helsingin yliopiston kirjastossa. Itseasiassa näyttää siltä että organisaatiot kaikilla aloilla(?), joko tuottavat tai tulevat pian tuottamaan informaatiota elektronisessa muodossa. Eri alojen yrityksiltä ja organisaatioilta - mm. kustannusyhtiöt, mediayhtiöt, musiikkiala, yritysten arkistot, kunnat ja valtionhallinto - löytyy aineistoa elektronisessa muodossa, josta osa tulee säilyttää pitkiäkin aikoja.

Pitkäaikaissäilytyksen yhteistyöverkoston kehittäminen on tärkeää. Elektronisten julkaisujen säilytykseen liittyvää tietämystä pitäisi hankkia ja levittää myös muille tahoille. Yliopistoilla, kustantajilla, muilla tiedontuottajilla ja ohjelmistoyrityksillä on kirjastojen ja arkistojen lisäksi oma roolinsa kulttuuriperintömme säilyttämisessä. Aihe on vielä uusi eikä sen yhteydessä ole vakiintunutta suomenkielistä terminologiaa. Termien ja käsitteiden selventäminen olisi myös erityisen tärkeää, jotta asioista puhuttaisiin yhtenevällä tavalla, mikä parantaisi yhteistyön mahdollisuuksia.

Monissa lehdissä ja sanomalehdissä näkee historiallisia katsauksia lehtien sisältöön vuosikymmenten takaa. Voimme lukea mitä lehdessä kirjoitettiin (tai näin ainakin uskotellaan) päivälleen 50 vuotta sitten. Mielenkiintoisia juttuja ovat Tietoviikko-lehden "15 vuotta sitten" -palstan tarinat, jonka ansiosta todella näkee tietotekniikan kehityksen. Vuonna 1986 Asikaisten kunnan tietokonestrategia oli melko vaatimaton. Kunnanjohtajan mukaan "jos meille jotain tulee niin se on pelkkä pääte" (ks. Tietoviikko 25.1.2001 tai Tietoviikko 30.1.1986). Näiden katsausten perusteella lukija voi hyvin muodostaa käsityksiään menneestä ajasta ja myös yhteiskunnan muutoksista ja kehityksestä. Nämä palstat ovat mahdollisia siksi että kyseiset lehdet ovat vielä hengissä, mutta myös siksi että nuo vanhojen lehtien tarinat ja uutiset on onnistuttu jollain tavalla säilyttämään ja nyt "uudelleenkäyttämään". Jälkipolville voidaan tarjota mielenkiintoisia näkökulmia elektroniseen menneisyyteen jos ryhdymme pitkäaikaissäilytyksen vaatimiin toimiin jo nyt. Kävisivätköhän tulevaisuuden "lehdessä" otsikot "Internet 100 vuotta sitten" tai "CD-ROM-julkaisut 200 vuotta sitten"?

 

Lisätietoa:

Stenvall, J. Metadata elektronisten julkaisujen pitkäaikaissäilytyksessä. http://www.lib.helsinki.fi/eva/sailmeta.pdf

PADI-Forum. Preserving access to Digital Information (Subject Gateway) http://www-prod.nla.gov.au/padi/

Preservation Metadata for Digital Objects: A Review of the State of the Art. OCLC/RLG White Paper January 31, 2001. http://www.oclc.org/digitalpreservation/presmeta_wp.pdf

 

Jani Stenvall, projektisihteeri
Helsingin yliopiston kirjasto
Email: jani.stenvall@helsinki.fi

Tietolinja 1/2001