Tietolinja

Tietolinja
1/2001


PÄÄKIRJOITUS

ARTIKKELIT

UUTISIA,
AJANKOHTAISTA

Networked European Deposit Library

Juha Hakala





EU:n NEDLIB-hanke päättyi helmikuussa 2001. Projektin tavoitteena oli rakentaa sekä teoreettisia valmiuksia että käytännön välineitä elektronisten julkaisujen arkistointiin. Päämäärät saavutettiin varsin hyvin. Tässä artikkelissa kerrotaan projektin keskeisistä saavutuksista.

Taustaa

Vuonna 1997, kun NEDLIB-hanketta suunniteltiin, elektronisten julkaisujen pitkäaikaissäilytys oli pitkälti teoriaa. Raporteissa valitettiin, että vaikka ongelman vakavuus tiedostetaan, mitään ei käytännössä ole kuitenkaan tehty.  

NEDLIB oli omalla alallaan yksi ensimmäisistä käytännönläheisistä hankkeista. Edeltäjien puutteen vuoksi varsin pienellä panostuksellakin saatiin näyttävää jälkeä aikaan. Helmikuussa 2001 tiedetään oleellisesti enemmän kuin kolme vuotta sitten esimerkiksi pitkäaikaissäilytyksen metadatasta ja elektronisen aineiston pitkäaikaissäilytyksestä emuloinnin avulla., osin NEDLIBin ansiosta.  

Projekti tutki seuraavia aihealueita: 

  • digitaalisen arkiston toiminnalliset vaatimukset
  • elektronisten julkaisujen käsittelymenetelmien kehittäminen
  • digitaalisen arkiston rakenteelliset perusratkaisut sekä tekniset standardit joita toiminta edellyttää
  • elektronisten julkaisujen pitkäaikaissäilytys

Tehtäväkenttä oli siis hyvin laaja, eikä kaikkiin asioihin voitu paneutua kovin tarkasti. Joistakin tavoitteista oli matkan varrella pakko luopua. Alun perin oli tarkoitus selvittää myös arkistoidun aineiston käyttöä ja suojauksia, mutta tällä alueella ei valitettavasti saatu kovin paljon aikaan.  

NEDLIB tuotti seuraavia tuloksia: 

  • digitaalisen arkiston yleisen toimintamallin kehittäminen
  • suositukset digitaalisen aineiston arkistointiin soveltuvista menetelmistä ja standardeista
  • elektronisten arkistojen tarvitsemien sovellusten kehittäminen, sekä
  • demonstraatiojärjestelmä jossa näitä sovelluksia kokeillaan käytännössä

 

Digitaalisen arkiston yleinen toimintamalli

NEDLIB-hankkeen käynnistyessä tiedossamme ei ollut yleistä mallia sille, mitä toimintoja digitaalisessa arkistossa pitäisi olla, ja miten ne liittyvät toisiinsa. Varsin pian totesimme, että ISO on kehittämässä arkistointistandardia. Sen primääri sovellusalue (satelliittikuvien tallentaminen) ei liittynyt elektroniseen julkaisemiseen kovin läheisesti, mutta  Consultative Committee for Space Data Systems’in kehittämä Reference Model for Open Archival Information System (http://www.ccsds.org/documents/pdf/CCSDS-650.0-R-1.pdf) osoittautui niin yleineksi, että NEDLIB saattoi soveltaa samoja periaatteita.   

OAIS-mallista on sen julkaisemisen jälkeen parissa vuodessa tullut perusta, jonka varaan muut saman alan hankkeet rakentavat oman työnsä. Esimerkiksi pitkäaikaissäilytyksessä tarvittavat kuvailutiedot sidotaan yleensä OAIS-mallissa määriteltyihin toimintoihin.  

OAIS-mallista ja sen soveltamisesta NEDLIBissä kerrotaan enemmän Jani Stenvallin artikkelissa tässä samassa lehdessä. Jani kuvaa myös NEDLIBin työtä pitkäaikaissäilytyksen kuvailutietojen kehittämiseksi (asiaa koskeva NEDLIB-raportti on luettavissa osoitteessa http://www.kb.nl/coop/nedlib/results/D4.2/D4.2.htm).  

NEDLIBin suunnitteluvaiheessa pitkäaikaissäilytyksen metadata oli vielä lapsenkengissä, mutta nyt, vain neljä vuotta myöhemmin, säilytykseen tarvittavista kuvailutiedoista on kohtuullinen yhteisymmärrys. Seuraavaksi on hoidettava pitkäaikaissäilytyksen metadatan edellyttämien kenttien ja koodien määrittely MARC-formaattiin sekä tarvittavien ominaisuuksien lisääminen kirjastojärjestelmiin. Lisäksi luetteloijat on koulutettava niin, että he pystyvät keräämään tarvittavat tiedot elektronisista aineistoista. Tämä työ on HYK:ssa aloitettu jo vuonna 2000.

 

Arkistointia koskevat suositukset

NEDLIB-projekti on julkaissut kaksi teknistä raporttia oman toimialansa standardeista. Standards for Electronic Publishing: an overview (http://www.kb.nl/coop/nedlib/results/e-publishingstandards.pdf) on hyvä johdatus kaupallisten kustantajien ratkaisuihin. Tekstin kirjoittaja, tunnettu elektronisen julkaisemisen asiantuntija Mark Bide toteaa, että kustantajat soveltavat standardeja vain kun se on kaupallisesti perusteltua. Verkkokaupan realiteettien vuoksi (tuotetta ei voi myydä Internetissä ilman riittäviä kuvailutietoja) metadatan merkitys on nopeasti kasvamassa.   

Kustantajat eivät perinteisesti olleet kiinnostuneita julkaisujen säilyttämisestä sen jälkeen kun tuote ei enää myy. Siksi on luonnollista, että he ovat halunneet liittoutua muun muassa kansalliskirjastojen kanssa aineiston säilytyksen varmistamiseksi ja vähentääkseen tallennuksen kustannuksia. Mutta aineiston välitys verkossa luo täysin uusia toimintamalleja, jotka pidentävät ainakin artikkeliaineiston kaupallista käyttöikää.  

Esimerkiksi Elsevier aikoo digitoida kaiken vanhan artikkeliaineistonsa. Tätä materiaalia ei enää myydä perinteiseen tapaan lehti ja vuosikerta kerrallaan, vain yhtenä kokonaisuutena, jossa vanhin aineisto on myyjälle ja ostajalle ainakin periaatteessa yhtä arvokasta kuin uusinkin. Ja jos kustantaja investoi paljon rahaa siihen, että kaikki materiaali on digitaalisena käytettävissä, eikö silloin myös digitoidun aineiston säilyttäminen ole oleellisen tärkeää?  Toki arkistointi voidaan edelleen ulkoistaa, mutta toiminnan strateginen merkitys kasvaa oleellisesti.  

Standards for the Implementation of a Deposit System for Electronic Publications (DSEP) –raportti (http://www.kb.nl/coop/nedlib/results/dsepstandards.pdf) teetettiin IBM:n asiantuntijavoimin, ja on varsin tekninen. Raportti nojautuu kuten NEDLIB-projekti yleensäkin OAIS-malliin; se määrittelee standardeja joita tulisi soveltaa OAIS-mallin mukaisissa päätoiminnoissa eli aineiston siirrossa arkistoon (Ingest), varastoinnissa (Archival storage), tietojen hallinnassa (Data management) sekä tiedonhaussa (Access). Esimerkiksi aineiston siirtoon arkistoon voidaan raportin mukaan käyttää esimerkiksi http-protokollaa, MIME-sähköpostistandardia sekä FTP- ja TFTP-tiedostonsiirtoprotokollia. Raportti arvioi kunkin menetelmän vahvuuksia ja heikkouksia yleisesti; raportissa on hyvin vähän sellaista aineistoa joka on relevanttia vain kirjastoille.  

Edellä mainituista NEDLIB-raporteista on helppo nähdä, että julkaisutoiminta ja julkaisujen välittäminen on tätä nykyä ja varmasti tulevaisuudessakin heikosti koordinoitua toimintaa. Tekninen kehitys aiheuttaa jatkuvia muutoksia, joihin on vain sopeuduttava. Vapaakappaletyön kannalta on merkittävä haaste, että aineistoa joudutaan vastaanottamaan erilaisin menetelmin ja vaihtelevissa formaateissa, jotka vielä muuttuvat ajan myötä.  

Tekniikan nopea muutos on haaste myös lainsäätäjälle; Suomen ehdotuksessa uudeksi vapaakappalelaiksi on pyritty määrittelemään osin NEDLIB-kokemuksien pohjalta toimintalinja, joka ohjaa vapaakappaleaineiston valintaa ja luovutusmenettelyä ”sopivasti”. Liian väljä laki johtaisi helposti siihen, että kirjasto saisi aineistoa jota se ei halua eikä kykene käsittelemään, ja vastaavasti liian spesifi laki vanhentuisi nopeasti ja tuottaisi helposti kohtuuttomia vaikeuksia luovuttajille.

 

Sovelluskehitys

NEDLIB, huolimatta kolmen vuoden kestostaan, ei ollut taloudellisilta resursseiltaan suuri hanke. Siksi ohjelmistojen kehittämiseen voitiin käyttää vain rajallisesti resursseja. Lähtökohdaksi päätettiinkin ottaa olemassa olevien sovellusten parantaminen.  

  1. MMB

Deutsche Bibliothek rakennutti itselleen 90-luvun loppupuolella MMB Compact -nimisen sovelluksen, jonka avulla CD ROM –tuotteet ja muut elektroniset vapaakappaleet voidaan tarjota hallitusti yleisökäyttöön. Ohjelmiston kuvaus on luettavissa osoitteesta http://www.kb.nl/coop/nedlib/tools/mmb_documentation.pdf. Sovelluksen kehittäminen maksoi paljon sekä aikaa että rahaa. Tuloksena saatiin järjestelmä, joka on ollut Deutsche Bibliothekissa tuotantokäytössä jo muutamia vuosia.  

MMB Compact todettiin toimivaksi ratkaisuksi, ja se päätettiin ottaa NEDLIBin ohjelmistovalikoimaan mukaan. NEDLIB-hankkeessa sovellusta muutettiin niin, että sen käyttöliittymä voidaan kääntää eri kielille. 

Helsingin yliopiston kirjasto testaa tätä kirjoitettaessa MMB:tä, tarkoituksena selvittää sen toimivuus ja soveltuvuus Suomen oloihin. Asiasta julkaistaan raportti huhtikuussa 2001; alustavat tulokset ovat olleet positiivisia.  

NEDLIBin kannalta MMB:ssä on yksi oleellinen puute: se ei takaa aineiston säilyvyyttä. Tätä varten tarvitaan lisämoduli, jonka avulla voidaan jäljitellä CD ROM –levyjen ja muiden ohjelmistotuotteiden edellyttämiä käyttöympäristöjä uudemmissa koneissa ja käyttöjärjestelmissä. Tällainen moduli voidaan kehittää myöhemminkin; Deutsche Bibliothek on solminut tammikuussa 2001 sopimuksen MMB Compact –sovelluksen ylläpidosta ja kehityksestä saksalaisen ProAsset-yrityksen kanssa. 

  1. NEDLIB-harava 

Eräs NEDLIBin tavoitteista oli sellaisen sovelluksen kehittäminen, jonka avulla Internet-verkossa julkistettu aineisto voitaisiin kerätä talteen. Vuonna 1997 tämä ajatus oli varsin edistyksellinen, koska Web-julkaisemista pidettiin vähemmän tärkeänä kuin kaupallista julkaisutoimintaa. Toisaalta monet asiantuntijatkin olettivat virheellisesti että verkkojulkaisut pitäisi hoitaa perinteisellä tyylillä, toisin sanoen hankkia kustantajalta ja luetteloida käsin. 

NEDLIB-haravan kehityksessä oli tavoitteena luoda tekniset edellytykset verkkoaineiston automaattiselle keruulle ja arkistoinnille. Resurssien niukkuuden vuoksi arkiston hakupalvelun rakentaminen rajautui pois; katsottiin että tämä voidaan hoitaa myöhemmin. Tämä näkemys oli oikea, pohjoismaiden kansalliskirjastojen Nordic Web Archive –projekti (http://nwa.nb.no) rakentaa hakupalvelun NEDLIB-haravalle vuosina 2001-2002. 

Koska omaa ohjelmistokehitystä haluttiin välttää, CSC – Tieteellinen laskenta – joka vastasi NEDLIB-haravan rakentamisesta – arvioi ensin Lundin yliopiston kirjaston Netlab-yksikössä kehitetyn  Combine-haravan. Arveltiin että Combine sopisi NEDLIBin tarkoitusperiin hyvin, koska Ruotsin kansalliskirjasto käytti sitä omassa Kulturarw3-hankkeessaan (http://kulturarw3.kb.se/). Valitettavasti ohjelmistossa havaittiin vakavia puutteita, joiden vuoksi NEDLIB päätti kehittää oman haravasovelluksen.  

Combine tai ylipäätään mikä tahansa harava joka on rakennettu indeksointia varten, ei sovellu sellaisenaan arkistoharavaksi. Indeksointiharavassa ei ole arkistointimodulia, eikä keruun logiikkaa ole sovitettu arkistointia varten. Tämä tarkoittaa esimerkiksi sitä, että HTML-sivuihin upotettuja kuvia (in-line images) ei noudeta heti sen jälkeen kun perusteksti on haravoitu, päinvastoin; voi olla että kuvat jäävät hakematta kokonaan jos niitä ei pystytä indeksoimaan. Arkistoharavan taas pitää varmistaa että in-line –materiaali haetaan niin pian kuin mahdollista, jotta sivut saadaan talteen kokonaisina. Olemassa olevan sovelluksen toimintalogiikan muuttaminen voi olla vaikeaa, ellei lähdekoodia ole dokumentoitu poikkeuksellisen hyvin. 

Haravasovellusten tutkiminen paljasti yllättäviäkin puutteita. Esimerkiksi Combine varmisti tietyissä ongelmatilanteissa virheettömän toimintansa heittämällä haravointia odottavia URL-osoitteita bittisankoon. Toisaalta Perl-ohjelmointi tekee mistä tahansa ohjelmasta CPU- ja muistisyöpön; taitavalla C-koodauksella kapasiteettitarve voidaan vähentää murto-osaan.  

NEDLIB-harava on poimittavissa osoitteesta http://www.csc.fi/sovellus/nedlib/. Ohjelmistoa kehitetään jatkuvasti käyttäjiltä saatujen kommenttien perusteella. Toistaiseksi ylläpito on ollut informaalia, mutta CSC ja Helsingin yliopiston kirjasto varmistavat toiminnan jatkumisen keskinäisellä sopimuksella. Tavoitteena on, että harava on jatkossakin kaikille käyttäjille maksuton, mutta tästä huolimatta jonkinlainen käyttäjätuki voidaan taata.   

NEDLIB kehitti välineitä vapaasti käytettävien verkkojulkaisujen ja teknisten tallenteiden käsittelyyn. Saatuja kokemuksia sovellettiin myös uuden vapaakappalelakiehdotuksen laadinnassa; NEDLIBin ansiosta tiedämme että lakiehdotukseen kirjatut periaatteet ovat teknisesti toteutettavissa. Esimerkiksi MMB:llä tai sen kaltaisella sovelluksella voidaan taata se, että teknistä tallennetta voidaan luovuttaa vain yksi kappale, joka kuitenkin on käytettävissä kaikista vapaakappalekirjastoista, kuten uusi laki edellyttää.  

 

Demonstraatiojärjestelmä

NEDLIB-hankkeessa haluttiin teoreettisen kehitystyön ohella myös kokeilla käytännössä pitkäaikaissäilytystä. Kokeiltavaksi menetelmäksi valittiin emulointi, jota on valitettavasti testattu varsin vähän.  

Käyttäen hovihankkijana emulointitekniikan alan parasta asiantuntijaa, Jeff Rothenbergiä, NEDLIB toteutti yksinkertaisen testin, jossa kokeiltiin Windows-ympäristöön rakennettujen tuotteiden käyttöä MAC-laitteen ja Windows-emulaattorin avulla. Hollannin kansalliskirjasto huolehti testauksen käytännön järjestelyistä ja testattujen tuotteiden valinnasta.  

Testin tulokset ja emulointi tallennustekniikkana on kuvattu Jeff Rothenbergin kirjoittamassa NEDLIB-raportissa An Experiment in Using Emulation to preserve Digital Publications (http://www.kb.nl/coop/nedlib/results/emulationpreservationreport.pdf). Kokemukset olivat hyviä: CD ROM –tuotteet toimivat MAC-koneessa aivan samoin kuin Windowsissa. Toki romput kaatuilivat silloin tällöin, mutta vain kun ohjelma kaatui myös Windows-koneessa.  

NEDLIBissä toteutettu testi ei vielä todista emuloinnin käyttökelpoisuutta pitkäaikaissäilytyksen menetelmänä, mutta tältä pohjalta on hyvä suunnitella uusia testejä, joissa testattavien tuotteiden määrää lisätään, ja tutkitaan useiden emulaattoreiden kasaamista päällekkäin. On varmaa, että emulointia tarvitaan joidenkin tuotteiden säilyttämiseen; esimerkiksi CD ROM –levyjen sisältämiä ohjelmia ei voida konvertoida uusiin laitteistoympäristöihin soveltuviksi.  

Yksi NEDLIB-hankkeen keskeisistä tuloksista on tietoisuus siitä, että kaikkia säilytysmenetelmiä – kopiointia, konvertointia ja emulointia – on sovellettava rinnan. Kiistely eri menetelmien keskinäisestä paremmuudesta on NEDLIBin kokemusten valossa turhaa; joillekin aineistoille konvertointi on paras vaihtoehto,  mutta monissa tapauksissa emulointi on paras tai jopa ainoa sopiva menetelmä.   

Voimme siis päätellä, että elektronisen vapaakappaleaineiston pitkäaikaissäilyttäminen edellyttää ainakin sitä, että kansalliskirjastoilla on oikeus rajaton kopioida elektronisia resursseja ja niiden käyttämiseen tarvittavia ohjelmistoja uusille tallennusvälineille, sekä konvertoida aineistoa rajoituksetta uusiin formaatteihin. EU-parlamentin hyväksymässä uudessa tekijänoikeusdirektiivissä nämä tarpeet on otettu varsin hyvin huomioon, mikä ei ole sattuma.  

 

Lopuksi

Käytettävissä olevien resurssien määrään nähden NEDLIB oli erittäin menestyksekäs hanke. Koska toiminta rakentui monissa kohdin aiemmin toteutettujen hankkeiden varaan, NEDLIB sai lentävän lähdön. Koska kaikilla hankkeeseen osallistuneilla kirjastoilla oli käytännön kokemusta, työskentely myös käynnistyi vaivatta. Suomen kannalta hankkeen ajoitus oli loistava; saimme paljon käyttökelpoista kokemusta, joka pystyttiin hyödyntämään uuden vapaakappalelain kehittämisessä.  

Projektin jälkihoito on sekin sujunut hyvin. Verkon arkistointiin liittyvää työtä jatketaan pohjoismaisten kansalliskirjastojen NWA-hankkeessa ja kansallisissa hankkeissa (Hollanti, Itävalta, Viro). Emuloinnin testausta jatketaan esimerkiksi Hollannin kansalliskirjastossa. Myös pitkäaikaissäilytyksen metadatan kehittämisessä NEDLIB-asiantuntijat ovat aktiivisesti mukana 

Vaikka NEDLIB ei saanutkaan seuraajakseen uutta EU-hanketta ainakaan heti, on ilmeistä että kansalliskirjastojen yhteistyö tällä saralla jatkuu. NEDLIB osoitti monien muiden asioiden ohella sen, että elektronisten julkaisujen arkistointiin liittyvät ongelmat ovat kansainvälisiä, ja ratkaisutkin voivat olla pitkälti samoja. Esimerkiksi NEDLIB-haravaa koskevia kyselyitä on tullut monista Euroopan maista.  

Hollannissa ja Englannissa kansalliskirjastot ovat jo päättäneet hankkia digitaalisen kirjastonsa perustaksi IBM:n toimittamat, OAIS-malliin perustuvat ohjelmistot ja laitteet (British Libraryn hankkeesta lisätietoja osoitteesta http://www.bl.uk/diglib/dlp/dls.html). Vastaavia hankintoja tehdään lähivuosina varmasti monissa muissakin teollisuusmaissa.  

HYK:n näkökulmasta Endeavor Information Systems’in ENCompass-ohjelma (http://www.endinfosys.com/prods/encompass.htm) ja IBM:n digitaalinen kirjasto -sovellus (http://www-4.ibm.com/software/is/dig-lib/) ovat hyviä ehdokkaita tutkittavien digital library -ohjelmien listalle. Ennen tämäntyyppisen sovelluksen käyttöönottoa HYK ottaa kuitenkin tuotantokäyttöön joukon NEDLIB-haravan kaltaisia erikoisohjelmia, joita tarvitaan elektronisen vapaakappaleaineiston ja muiden elektronisten julkaisujen käsittelyyn useita. Näiden sovellusten ylläpito ja kehittäminen on mielenkiintoinen haaste, jossa kirjastojen kansainvälinen yhteistyö toivon mukaan helpottaa yksittäisten kirjastojen kuormaa. 

 

Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto
Email: juha.hakala@helsinki.fi

Tietolinja 1/2001