Tietolinja

Tietolinja
3/1999


PÄÄKIRJOITUS

ARTIKKELIT


Suomalainen Internet arkistoon

Juha Hakala


Uudessa vapaakappalelaissa ehdotetaan, että vapaasti käytettävää verkkoaineistoa ei tarvitsisi luovuttaa, mutta kansalliskirjastolla olisi oikeus kerätä tämä aineisto verkosta ja asettaa se tarjolle muun vapaakappaleaineiston tavoin. Peruste tälle vaatimukselle on se, että Internetissä on jatkuvasti kasvava määrä arvokasta aineistoa, jonka säilyttäminen pitää turvata. Tässä artikkelissa kuvataan sitä, miten verkkoaineiston keruu ja säilyttäminen on käytännössä hoidettavissa.

Haravoinnin lyhyt historia

Ennen WWW-palvelujen suosion räjähdysmäistä kasvua 1993-1994 Internetissä ei juuri ollut hakupalveluita. Tosin aineistomääräkin oli nykyiseen verrattuna huvittavan pieni. Mutta WWW:n ja Internetin vakiinnutettua asemansa syntyi nopeasti hakupalveluita, joiden korskeasti luvattiin kattavan koko verkon. Tiedämme nyt miten kävi: parhaat globaalit hakupalvelut sisältävät luotettavimpien arvioiden mukaan noin 15 % koko Internetistä, ja verkon kasvun myötä kate laskee jatkuvasti samalla kun palvelujen ajantasaisuus heikkenee. Koska palvelua rakentava "haravointiohjelma" ei ehdi vierailla sivuilla kuin harvakseltaan, WWW-indeksien tarjoilemat URL-linkit ovat usein vanhentuneita.

Pohjoismaissa pidettiin jo 90-luvun puolivälissä tarpeellisena kehittää omia ohjelmia kansallisten WWW-hakupalvelujen rakentamiseen. Lundin yliopiston kirjaston Netlab-yksikön johdolla ja Nordinfon tuella rakennettiin Nordic Web Index eli NWI-ilmaisohjelmistopaketti, joka sisältää tätä nykyä Combine-nimisen haravointiohjelmiston sekä tanskalaisen Index Data -yrityksen rakentaman tietokantasovelluksen, johon sisältyy Z39.50-palvelin sekä HTTP-Z39.50 -yhdyskäytävä.

NWI-sovelluksella rakennettiin kansalliset verkkoindeksit (katso esimerkiksi http://nwi.funet.fi), joista voitiin hakea tietoa skandinaavisista verkkojulkaisuista WWW-selaimia käyttäen. Z39.50:n ansiosta tietokannat on voitu helposti linkata yhteisluetteloksi.

Kansalliset NWI-tietokannat ovat olleet verrattain suosittuja, sillä niiden kate on ollut parempi kuin kansainvälisten indeksien. Toinen merkittävä tekijä on se, että NWI-järjestelmä on optimoitu käyttäjien, ei mainostajien tarpeisiin - Alta Vistan kaltaisille palveluillehan on tärkeää että käyttäjä näkee mahdollisimman paljon mainoksia, joista järjestelmän rahoitus tulee. On tosin myönnettävä, että nykyisellään NWI ei hakuominaisuuksiltaan kykene kilpailemaan esimerkiksi Alta Vistan kanssa, mutta tilanne voi muuttua: NWI:tä kehitetään tiedonhakijoita, ei mainostajia ajatellen.

Combinen kaltaiset haravointiohjelmistot toimivat siten, että niille annetaan joukko WWW-sivuja, joilta aloittaa aineiston keruu. Ohjelma hakee alkusivut aloitussivuille määriteltyjen URL-tunnusten avulla ja tallentaa kaikki näistä WWW-sivuista löytämänsä URL-linkit. Kun kaikki aloitussivut on tutkittu ja indeksoitu hakutietokantaan, alkuperäisdokumentit hävitetään, ja ohjelma hakee ne dokumentit, joihin edellisen keräyskierroksen verkkosivuissa viitattiin. Tämä toistuu, kunnes uusia dokumentteja ei enää löydy.

Haravointi ja verkkoarkisto

Kansalliskirjaston kannalta hakupalvelun tarjoaminen kotimaisiin verkkojulkaisuihin on kansallisbibliografiatyön täydennystä. Vielä oleellisempaa olisi kuitenkin verkkoaineiston tallentaminen, jotta tulevaisuudessa voitaisiin katsoa mitä tämän päivän verkko oikein sisälsi.

Koska haravointiohjelmisto noutaa verkosta kaiken, lienee helppoa muokata ohjelmaa niin, että se tallentaa dokumentit eikä hävitä niitä? Tämän yksinkertaisen oivalluksen pohjalta Ruotsin kansalliskirjasto käynnisti muutamia vuosia sitten Kulturarw3-projektin, jossa ruotsalainen verkkoaineisto on koottu jo kuuteen kertaan. Datan pysyväksi kodiksi on Wallenbergin säätiön miljoonalahjoituksen turvin hankittu tehokas UNIX-palvelin, jossa on pari teratavua levytilaa. Asiakaskäyttöön järjestelmää ei ole vielä avattu, koska Ruotsin nykyinen vapaakappalelaki ei anna tähän mahdollisuutta. Uudessa lakiehdotuksessa haravointi on otettu huomioon pitkälti samoin periaattein kuin Suomessa suunnitellaan tehtävän.

Koska World Wide Webissä kaikki dokumentit on periaatteessa linkattu toisiinsa, rajallisella aloitussivujen määrällä voidaan päästä vaikuttaviin tuloksiin. Esimerkiksi Ruotsin kansalliskirjasto on kerännyt talteen aineiston 54.000 ruotsalaiselta WWW-palvelimelta. Moni näistä aineistoista, saati sitten niiden sisältämistä dokumenteista, on jo ehtinyt kadota muualta kuin Kungliga Biblioteketin tietokoneelta.

Henkilötyötä verkkoaineiston keruuseen on Ruotsissa tarvittu kahden atk-suunnittelijan verran. He ovat lähinnä kehittäneet ohjelmistoa. Toki keruukin vaatii työtä: käytäntö on osoittanut, että aloitussivuja pitää määritellä suhteellisen paljon, jotta keruutulos olisi kattava. Pohjoismaiden kansallisissa palveluissa voidaan päästä noin 70 % kattavuustasoon, mikä ylittää reilusti kansainvälisten indeksien arviolta 15 % katteen.

Kotimaisen palvelun katetta voi kokeilla käytännössä tekemällä hakuja Alta Vistan kansainvälisestä kannasta sekä MTV:n ylläpitämästä kotimaisesta indeksistä (http://altavista.mtv3.fi/) ja vertailemalla lopputulosta. Jos vertailussa soveltaa NWI:tä, kannattaa muistaa että se indeksoi dokumentista pienemmän osan kuin Alta Vista, ja siksi tulosjoukot ovat pienempiä - mutta niiden tarkkuus on parempi.

Kulturarw3-projekti sovelsi NWI-hankkeessa kehitettyä haravointiohjelmistoa. Sen etu oli modulaarisuus - Combine-ohjelmistoon oli helppo lisätä arkistointiosa. Käytännön toiminnassa havaittiin kuitenkin, että Combinea pitää muokata perusteellisesti, jotta se soveltuisi hyvin arkistointiin. Tämän työn otti tehdäkseen EU:n NEDLIB-hanke. Linkki NEDLIBin ja NWI:n välillä on Helsingin yliopiston kirjasto, joka vastaa NEDLIBissä verkkojulkaisujen keruuseen käytettävien ohjelmien kehittämisestä, ja koordinoi pohjoismaisten kansalliskirjastojen yhteistyötä verkkojulkaisujen haravoinnissa ja tallennuksessa.

NEDLIB-projektissa on kehitetty toiminnalliset määritykset verkkojulkaisujen haravointi- ja arkistointiohjelmistolle. Tämä työ tehtiin CSC-Tieteellinen laskenta oy:n ja kansalliskirjaston yhteistyönä. Tätä kirjoitettaessa on käynnissä ohjelmointi, josta vastaa CSC; se valmistunee vuoden 2000 tammikuussa. Tämän jälkeen muut NEDLIB-partnerit sekä pohjoismaiset kansalliskirjastot evaluoivat ja testaavat sovelluksen.

Kuten Kulturarw3-sovellus, myös NEDLIB-harava perustuu Combine-ohjelmaan. Vanha Combine-parka on kuitenkin kirjoitettu varsin perusteellisesti uusiksi. Uusi ohjelma on kirjoitettu C:llä, kun vanha ohjelma käytti Perliä. Lisäksi uusi ohjelmistoversio perustuu eri tietokantasovellukseen. Muutosten edut näkyvät esimerkiksi siinä, että uusittu Combine on joidenkin toimintojen osalta 10 kertaa vanhaa nopeampi. Tämä merkitsee muun muassa säästöjä laitteistohankinnoissa.

Keruun aakkoset

Kansalliskirjastokäytössä haravan annetaan koota mahdollisimman kattavasti jossakin maassa julkistettu verkkoaineisto. Yksinkertaisimmillaan haravan annetaan koota kaikki aineisto omasta maa-domainista, esimerkiksi Suomessa *.*.fi:stä ja Ruotsissa *.*.se:stä. Tästä voidaan varsin helposti jatkaa kokoamalla Internet-nimipalvelujen ylläpitäjiltä tiedot niistä *.*.com, *.*.org, *.*.net jne. palvelimista, jotka sijaitsevat omassa maassa. Esimerkiksi Ruotsissa kootusta aineistosta vain noin 60 % on *.*.se-domainista.

Keruuohjelmistoa voidaan tietenkin soveltaa paljon rajatummin (miksei myös laajemmin) kuin kansallisella tasolla. Esimerkiksi yliopisto voisi käyttää haravaa omilla WWW-palvelimillaan olevien dokumenttien keruuseen ja tallennukseen yhteiselle arkistopalvelimelle.

Dokumenttien keruuta voidaan haluttaessa tehostaa normaalikäytännöstä. Combine voidaan esimerkiksi opettaa olemaan välittämättä robots.txt-tiedostossa olevasta kiellosta kerätä dokumentteja WWW-palvelimelta tai jostakin sen hakemistosta. Jos jokin palvelin/hakemisto on suojattu käyttäjätunnuksella ja salasanalla, ne voidaan määritellä keruuohjelmaan. Tämä edellyttää sopimuksta palvelimen ylläpitäjän kanssa.

Koska valtaosa Suomenkin Web-dokumenteista sijaitsee muutamilla todella suurilla palvelimilla - esimerkiksi Teknillisen korkeakoulun palvelimella oli jo vuoden 1998 lopulla yli 100.000 dokumenttia - Combine on rakennettu siten, että se ei aiheuta WWW-palvelimille kohtuutonta kuormaa yrittämällä poimia yhdestä palvelimesta satoja dokumentteja kerralla. WWW-indeksien haravointiohjelmistot aiheuttavat merkittävän osan jokaisen WWW-palvelimen kokonaiskuormasta, ja siksi kansalliskirjastojen käyttämä ohjelma on rakennettava hyväkäytöksiseksi. Muutama harava ei valitettavasti hallitse käyttäytymissääntöjä, mikä aiheuttaa epäluuloja kaikkia haravaohjelmia kohtaan.

Lopputuloksen kannalta merkittävää on myös se, miten haravointi ajoitetaan. Ruotsissa on kerätty kaikki aineisto tietyin väliajoin; näin saadaan "snapshot" verkon sisällöstä jonakin ajankohtana. Tämän menettelyn ongelma on se, että usein muuttuva aineisto, esimerkiksi verkkosanomalehdet, ei tule mukaan. Lisäksi arkistoon tulee paljon dupletteja, koska kaikki aineisto kerätään joka kerta uudelleen.

Uutta Combinea käytettäessä poimintaa voidaan ohjata sen mukaan, miten usein sivustot muuttuvat. Koska haravointiohjelmisto muistaa milloin jo haettu sivu on viimeksi muuttunut, sovellus oppii haluttaessa keräämään dynaamisemmat osoitteet usein, ja jättämään staattiset sivut rauhaan. Tämä optimointi lisää ihmistyön tarvetta jonkin verran, mutta toisaalta lopputulos on oleellisesti kattavampi kuin mihin määräaikaispoiminnoin päästään.

Jatkuva haravointi on siinä mielessä houkutteleva vaihtoehto, että samalla keruuprosessilla voidaan rakentaa sekä päivittyvä verkkoindeksi, joka sisältää vain verkossa haravointihetkellä olleen aineiston, että kumuloituva verkkoarkisto, johon sisältyy myös aineisto joka on kadonnut. Eroa voisi luonnehtia siten että kun indeksi on ikään kuin kirjakaupan myyntiluettelo, arkisto vastaa kansalliskokoelmaa, johon pyritään kokoamaan periaatteessa kaikki julkaistu aineisto.

Haravoidun aineiston tallennus

Miten verkkoarkisto sitten käsittelee haravointiohjelmiston keräämät miljoonat, ellei kymmenet miljoonat dokumentit? Kuvaan seuraavaksi joitakin yleisperiaatteita.

Tallennuksen yhteydessä tallennetaan aikaleima, jolla on kaksoisrooli. Tiedonhaun kannalta aikaleima mahdollistaa "vertikaalisen selauksen", asiakas voit tutkia saman - tai samassa verkko-osoitteessa olleen - dokumentin eri aikoina voimassa olleita versioita. Keruun kannalta aikaleiman merkitys on siinä, että muuttumatonta dokumenttia ei tarvitse noutaa uudestaan. Haravointiohjelman tarvitsee vain selvittää HTTP-protokollan avulla milloin dokumenttia on viimeksi muutettu, ja jos dokumentti on haravoitu tämän päivämäärän jälkeen, uusinta ei ole tarpeen.

Jokaiselle dokumentille lasketaan MD5-tarkistussumma. MD5 on Internet-standardi (RFC1321), jonka ominaisuuksiin kuuluu se että kaksi erilaista dokumenttia ei (periaatteessa) koskaan voi saada samaa MD5-tarkistussummaa. Niinpä tarkistussumma voi toimia myös ID-tunnuksena tallennettaville dokumenteille, ellei niissä jo ole muuta identifikaatiotunnusta.

Tarkistussummalla ja aikaleimalla voidaan hoitaa myös tallennetun aineiston autentisointi. Laskemalla tarkistussumma uudelleen voidaan osoittaa ettei dokumenttia ole muokattu säilytyksen aikana. Tämä tosin pätee vain jos dokumenttia ei ole konvertoitu uuteen muotoon pitkäaikaissäilytyksen takaamiseksi. Aikaleimat taas osoittavat sen periodin jolloin dokumentti on ollut käsillä olevassa muodossa.

Kun kasvava osa tieteellisestä dokumentaatiosta siirtyy verkkoon, on tärkeää että kansalliskirjaston verkkoarkistoa voidaan käyttää referenssinä silloin, kun halutaan esimerkiksi selvittää, koska jokin tietty tieteellinen löydös on esitetty verkossa, ja missä muodossa julkistus on tarkkaan ottaen tehty. Jos löydös on julkaistu vain elektronisesti, tämäntyyppinen referenssipalvelu on suorastaan välttämätön. Toki esimerkiksi yliopistot voivat ylläpitää omia elektronisen aineiston pitkäaikaissäilytysjärjestelmiä, mutta yhteistyöllä saavutettaneen parhaat tulokset.

Tavallisin verkkoaineiston arkistointia vastaan esitetty argumentti on se, että aineistoa on liian paljon jotta se voitaisiin kerätä ja asettaa haettavaksi. Ruotsin ja Suomen kokemukset osoittavat tämän käsityksen vääräksi.

Edellä on jo kerrottu, että Ruotsissa verkkojulkaisut on kerätty kuusi kertaa. Suomessa harava on heilunut vasta kerran: CSC keräsi ja tallensi kaikki suomalaiset verkkojulkaisut syksyllä 1998. Datan kokonaismäärä oli yllättävästi vain 60 gigatavua, mikä on selvästi vähemmän kuin esimerkiksi Linnea-tietokannoissa olevan bibliografisen datan määrä. Vertailun vuoksi, pelkästään sanomalehtiartikkeleiden tekstit vievät noin 250 gigatavua vuosittain.

CSC:n on tarkoitus tehdä uusi haravointikierros vielä vuoden 1999 aikana; on odotettavissa että nyt dataa kertyy jo yli 100 gigatavua. Kaikeksi onneksi levytila halpenee jatkuvasti noin 40 % vuodessa. Tämä tarkoittaa sitä että vaikka verkko kasvaa nopeasti, tiedon tallentamisen kustannukset laskevat jatkuvasti.

Jotkut arvostelijat ovat sitä mieltä että verkkoaineiston pitkäaikaissäilytys on mahdotonta. Nämä kriitikot unohtavat sen, että WWW-aineisto on säilytyksen kannalta yksinkertaista: CSC:n vuonna 1998 keräämästä Suomen aineistosta noin 97 % oli HTML-, JPEG- tai GIF-dokumentteja, joiden säilyvyys on hyvä. Vain hieman kärjistäen voisi sanoa, että tuleville sukupolville on helpompi tallentaa miljoona Web-dokumenttia kuin 100 CD ROM -levyä. Jälkimmäisten arkistointi kun on mahdollista vain jos pystymme jäljittelemään alkuperäistä käyttöympäristöä tulevaisuuden laitteilla ja käyttöjärjestelmissä.

Suomalaisen HTML-dokumentin keskimääräinen koko on noin 5 kilotavua, joten dokumentit ovat pieniä, mutta niitä on paljon. Jotta kaikki materiaali voitaisiin tallentaa yhdelle palvelimelle, kootaan kaikki yhden päivän aikana haravoidut dokumentit paketiksi, joka ainakin toistaiseksi pakataan tilan säästämiseksi ja tallennetaan CSC:n arkistorobotin avulla nauhalle.

Kun arkiston käyttäjä haluaa dokumentin arkistosta, hän tekee haun esimerkiksi URL-tunnuksella tai seuraa arkistosta saadussa dokumentissa olevaa linkkiä. Arkisto-ohjelmisto selvittää mistä päiväpaketeista dokumentin osat löytyvät, avaa tarvittavat pakkaukset ja toimittaa dokumentin HTTP-palvelimen avulla asiakkaalle.

Järjestelmän vasteaikoja on testattu alustavasti; CSC:n nykyisellä arkistorobotilla yhden dokumentin hakuun meni keskimäärin noin 30 sekuntia. Levytilan halventuessa aineisto voidaan siirtää nauhalta levylle Ruotsin tapaan; tällöin vasteaika paranee tietenkin oleellisesti.

Last resort -tyyppiselle palvelulle puoli minuuttia on siedettävä hakuaika. Arkistoa tarvitaan vain jos dokumenttia ei enää löydy verkosta, ja jos vaihtoehtoina ovat se, että dokumentti löytyy puolessa minuutissa ja se, ettei dokumenttia löydy lainkaan, pieni viive palvelussa lienee helppo hyväksyä.

Ongelmallisempaa verkkoarkiston käyttäjille voi olla se, että vain aineiston viitetiedot ovat näillä näkymin vapaasti käytettävissä. Pääsy itse dokumentteihin on toki maksutonta, mutta ilmeisesti sallittavissa vain vapaakappalekirjastoissa olevista, elektronisen vapaakappaleaineiston käyttämiseen varatuista työasemakoneista. Se että verkkodokumentit ovat tämän artikkelin tapaan vapaasti käytettävissä, ei merkitse että ne eivät silti olisi tekijänoikeuksien suojaamia esimerkiksi sanomalehtiartikkeleiden tapaan. Siksi kansalliskirjaston oikeudet tämän aineiston tarjoamiseen on määriteltävä uudessa vapaakappalelaissa erikseen. Tavoitteena on edellä mainittu, tekijöiden ja käyttäjien oikeudet kohtuullisen hyvin turvaava ratkaisu.

Jos dokumentissa on niin sanottuja inline-kuvia, ne kerätään aina arkistoon ja tallennetaan samaan pakettiin alkuperäisen dokumentin kanssa. Arkistoon voi siis päätyä myös ulkomaista materiaalia, jos suomalainen dokumentti ei ole ymmärrettävissä ilman sitä. Toisaalta osa kotimaisesta aineistosta voi olla alun perin luvattomasti verkkoon siirrettyä. Jos ongelmia ilmenee, kansalliskirjastolla tulee olemaan mahdollisuus poistaa verkkoarkistosta sinne tallentunut, pahennusta herättävä dokumentti.

Dokumenttien indeksointi

Arkistopalvelimelle tallennetuista verkkodokumenteista rakennetaan tietokanta, jonka kautta aineisto on kirjaston henkilökunnan ja asiakkaiden haettavissa. Vähimmilläänkin - siis jos itse dokumenttia ei voida indeksoida - hakutermeinä voi käyttää URL-osoitetta, poiminnan aikaleimaa sekä dokumentista laskettua tarkistussummaa. Indeksoinnin kannalta hankalia tapauksia ovat esimerkiksi ohjelmat sekä sellaiset kuvadokumentit, joiden nimiötä - eli siis siellä olevaa tekstimuotoista kuvailutietoa - ei pystytä lukemaan.

Tekstidokumentit tarjoavat ainakin periaatteessa paljon enemmänkin hakumahdollisuuksia. Rakenteisista teksteistä kuten HTML- ja XML-dokumenteista voidaan indeksoida erikseen määriteltävät osat, kuten otsikot ja vaikkapa lihavoidut sanat. Alkuvaiheessa verkkoarkiston tarjoamat hakupalvelut ovat kuitenkin varsin rajoitetut. Tilanne voi kuitenkin parantua nopeastikin.

CSC kehittää FinELibin tuella verkkoaineiston indeksointiin ohjelmistopakettia, jossa sovelletaan muun muassa Lingsoftin kieliteknologiatuotteita. Nämä ohjelmat valmistunevat vuoden 2000 kesällä, ja niitä tullaan hyödyntämään ennen kaikkea NWI-palveluissa, mutta niitä voi soveltaa myös verkkoarkistossa.

Dokumenttien sisältämästä Dublin Core - ja muusta metadatasta on suunnitteilla rakentaa erillinen metadatatietokanta. Tämä tietokanta sallii tehokkaan haun siitä aineistosta, jonka tekijät, kustantajat tai välittäjät kuten kirjakaupat tai kirjastot ovat kuvailleet.

Tulevaisuus

Lähitulevaisuudessa on tärkeää organisoida suomalaisen verkkoindeksin ja -arkiston ylläpito pysyvälle pohjalle, ja käynnistää kansainvälinen kansalliskirjastojen välinen yhteistyö ohjelmiston käyttäjien kesken.

CSC - Tieteellinen laskenta oy:n rooli on Suomessa ollut merkittävä sekä Suomen NWI-tietokannan ylläpitäjänä että NWI-sovelluksen ja verkkoarkistoinnin kehittäjänä. Koska CSC on kehitysorganisaatio, ylläpitotehtävät sopivat sille kuitenkin huonosti. Siksi kansalliskirjasto pyrkii ottamaan ylläpitovastuun suomalaisen NWI-verkkoindeksin sekä verkkoarkiston ylläpidosta jo vuoden 2000 aikana. Keskustelut CSC:n kanssa asian tiimoilta on jo käynnistetty.

Muodollinen vastuu verkkoaineiston tallentamisesta ja säilyttämisestä - ja mahdollisuus tarjota järjestelmä yleisökäyttöön - saadaan vasta uuden vapaakappalelainsäädännön astuttua voimaan, mutta aineiston keruutyötä on tehtävä jo nyt, jotta verkossa nyt oleva aineisto ei tuhoutuisi. CSC:ssä jo olevan aineiston säilyminen on myös turvattava. Työn hedelmät saadaan kansalaisten käyttöön toivottavasti vuonna 2001.

Verkkojulkaisujen arkistointi alkoi Ruotsin kansalliskirjaston hankkeena muutamia vuosia sitten. Helsingin yliopiston kirjastossa KB:n aloite pantiin heti merkille ja totesimme että vastaava toiminta on käynnistettävä Suomessa, mikä CSC:n tuella onnistuikin osana EVA-projektia. Myöhemmin Helsingin yliopiston kirjasto sai arkistoinnin mukaan EU:n NEDLIB-hankkeeseen, siitä huolimatta että muut NEDLIB-partnerit eivät olleet asiasta mitenkään erityisen kiinnostuneita projektin suunnitteluvaiheessa vuonna 1997. Asiat ovat muuttuneet nopeasti: tätä kirjoitettaessa jokainen NEDLIBissä mukana oleva kansalliskirjasto haluaa kokeilla arkistointisovellusta, ja Ranskan kansalliskirjastoon on jo palkattu arkistointia hoitava henkilö. Myös kaikilla pohjoismaisilla kansalliskirjastoilla sekä esimerkiksi Virolla on aikomus ryhtyä verkkoaineiston arkistointiin. Tämä kertoo tietenkin ennen muuta siitä, miten nopeasti WWW:n merkitys julkaisukanavana on kasvanut.

Vaikuttaa vahvasti siltä, että kansalliskirjastot tulevat tekemään verkkojulkaisujen arkistoinnissa tiivistä yhteistyötä toistensa kanssa. Tehtävään kehitetyt ohjelmat ovat osin uniikkeja; mitään vastaavaa ei voi ostaa. Yhdessä voimme huolehtia siitä, että sovelluksien tuki ja jatkokehitys on tehokasta. Pohjoismaisten kansalliskirjastojen johtajat ovatkin jo päättäneet palkata yhteisen henkilön verkkoarkistosovelluksen ylläpitoon ja kehittämiseen.

Kansainvälisen yhteistyön ohella verkkoaineiston haravointi ja tallennus voi poikia myös hedelmällistä kansallista yhteistoimintaa. Haravointisovellus kun kerää kaiken verkkoaineiston, siis asiakirjat siinä kuin julkaisutkin. Kansalliskirjasto on pitänyt kansallisarkistoa ajan tasalla hankkeen edistymisestä.

Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto
email: Juha.Hakala@helsinki.fi

Tietolinja 3/1999