Kirja tietoverkkojen maailmassa / Artikkeli: Juha Hakala

« Hakala, Juha. Internetin pitkät varjot. Julkaisussa Kirja tietoverkkojen maailmassa. Toimittaja Inkeri Salonharju. Verkkojulkaisu. Helsinki: Helsingin yliopiston kirjasto, 2003. Saatavana http://www.lib.helsinki.fi/julkaisut/kirjatietoverkkojenmaailmassa/ ISBN 951-10-1320-6. Artikkelin URN:NBN:fi-fe20031624.

Juha Hakala

Internetin pitkät varjot

Uudessa vapaakappalelakiehdotuksessa esitetään, että vapaasti käytettävää verkkoaineistoa ei tarvitsisi luovuttaa, mutta kansalliskirjastolla olisi oikeus kerätä tämä aineisto verkosta ja asettaa se tarjolle muun vapaakappaleaineiston tavoin. Kansalliskirjastolla on vastuu julkaistun kulttuuriperinnön tallentamisesta, ja verkossa julkistettu aineisto on tätä kulttuuriperintöä siinä missä perinteisempikin materiaali.

Verkon haravoinnin lyhyt historia

Ennen www-palvelujen suosion räjähdysmäistä kasvua 1993-1994 internetissä ei juuri ollut hakupalveluita. Tosin aineistomääräkin oli nykyiseen verrattuna huvittavan pieni. Mutta www:n ja internetin vakiinnutettua asemansa syntyi nopeasti palveluita, joiden korskeasti luvattiin kattavan koko verkon. Tiedämme nyt miten kävi: parhaat globaalit hakupalvelut eli, Google ja AlltheWeb, sisälsivät kesällä 2003 toki yli pari miljardia dokumenttia, mutta kattavat silti luotettavina pidettävien arvioiden mukaan vain noin 15 % koko internetistä. On ilmeistä, että Webin kiihtyvän kasvun myötä kate laskee jatkuvasti, samalla kun palvelujen ajantasaisuus heikkenee. Koska palvelua rakentava "haravointiohjelma" ei ehdi vierailla sivuilla kuin harvakseltaan, hakupalveluiden tarjoilemat URL-linkit ovat myös usein vanhentuneita.

Pohjoismaissa pidettiin jo 90-luvun puolivälissä tarpeellisena kehittää omia ohjelmia kansallisten www-hakupalvelujen rakentamiseen. Lundin yliopiston kirjaston Netlab-yksikön johdolla ja Nordinfon tuella rakennettiin Nordic Web Index, eli NWI-ilmaisohjelmistopaketti, joka sisälsi muun muassa Combine-nimisen verkkojulkaisujen haravointiohjelmiston sekä tanskalaisen Index Data -yrityksen rakentaman tietokantasovelluksen. NWI-sovelluksella rakennettiin kansalliset verkkoindeksit, joista voitiin hakea tietoa skandinaavisista verkkojulkaisuista www-selaimia käyttäen. Valitettavasti muutamassa vuodessa tekniikka ajoi tämän palvelun ohi, ja siihen kuuluneet kansalliset tietokannat suljettiin vähin äänin 2000-luvun alussa.

NWI-ohjelmistopaketista on jäänyt elämään vain Combine-haravointiohjelmisto, joka on edelleen tuotantokäytössä Kungliga biblioteketissa. Combinen kaltaiset haravointiohjelmistot toimivat siten, että niille annetaan joukko www-sivuja, joilta aloittaa aineiston keruu. Ohjelma hakee alkusivut aloitussivuilta löytyvien URL-tunnusten avulla ja tallentaa kaikki näistä www-sivuista löytämänsä URL-linkit. Kun kaikki aloitussivut on tutkittu ja indeksoitu hakutietokantaan, ohjelma hakee ne dokumentit, joihin edellisen keräyskierroksen verkkosivuissa viitattiin. Tämä toistuu, kunnes uusia dokumentteja ei enää löydy. Keruu voidaan rajata erikseen määriteltävien ehtojen avulla; voidaan kelpuuttaa esimerkiksi vain ne sivut, jotka sijaitsevat Suomen kansallisessa verkossa (.fi).

Kansalliskirjaston kannalta hakupalvelun tarjoaminen kotimaisiin verkkojulkaisuihin on kansallisbibliografiatyön täydennystä. Vielä oleellisempaa on kuitenkin verkkoaineiston tallentaminen, jotta tulevaisuudessa voitaisiin katsoa, mitä tämän päivän verkko oikein sisälsi. Koska haravointiohjelmisto noutaa verkosta periaatteessa kaiken, lienee helppoa muokata ohjelmaa niin, että se tallentaa dokumentit eikä hävitä niitä? Tämän yksinkertaisen oivalluksen pohjalta Ruotsin kansalliskirjasto käynnisti 1997 Kulturarw3-projektin, jossa ruotsalainen verkkoaineisto on koottu vuoteen 2003 mennessä jo ainakin kahdeksaan kertaan. Dataa on tallessa kymmeniä teratavuja; siitä suuri osa on tietenkin huonolaatuista tai vieläkin huonompaa, mutta aika parantaa: tietyn aikakauden roska muuttuu kulttuurihistorioitsijan tai arkeologin käsissä aarteeksi.

Maailmanlaajuisesti kansalliskirjastot eivät olleet verkon arkistoinnin pioneereja. Ensimmäisenä työhön ehätti The Internet Archive, joka on jatkanut verkon tallennusta yhtäjaksoisesti joskaan ei kattavasti jo vuodesta 1996. Arkiston koko oli jo vuonna 2002 yli 150 teratavua. Samaan aikaan kun Internet Archive keräsi yhteistä kulttuuriperintöämme talteen, kansalliskirjastoissa yleisin suuntaus oli vielä verkon sisältöjen ignorointi. Tämä toimintaperiaate perustui kahteen väärään olettamukseen. Webin nopeaa kehittymistä tietoteknisestä kokeilusta tärkeäksi tiedonhankintakanavaksi ei osattu ennakoida, ja niinpä vielä 90-luvun loppupuolella kirjastoja kehotettiin keskittymään vapaakappaletoiminnassaan kaupallisten kustantajien tuottamaan elektroniseen aineistoon, eli tuossa vaiheessa etupäässä cd-rom-levyihin.

Perinteinen käsitys aineistojen käsittelymenetelmistä oli toinen tämän virhearvion syy. Internetin miljardeja dokumentteja ei tietenkään voida luetteloida perinteiseen tapaan eivätkä kustantajat voi luovuttaa niitä kuten kirjoja. Mutta verkkoaineistolle voidaan kehittää täysin automaattisia käsittelymenetelmiä. Tämä tie ei ole helppo, kuten muun muassa Helsingin yliopiston kirjastossa on viime vuosina todettu, mutta tarvittavista välineistä merkittävä osa on jo olemassa.

Harava virtuaalilehdille ja muulle verkkoaineistolle

EU rahoitti vuosina 1997-2001 NEDLIB eli Networked Electronic Deposit Library -hanketta, jonka tavoitteena oli luoda periaatteita ja välineitä elektronisten vapaakappaleiden käsittelyyn. Yksi tämän projektin mielenkiinnon kohteista oli verkkojulkaisujen keruu ja arkistointi, josta vastasi HYK apunaan Tieteen tietotekniikan keskus, CSC. Alun perin HYKin tavoitteena oli Combine-haravointiohjelman edelleen kehittäminen, mutta CSC päätyi teknisessä analyysissään siihen, ettei Combinen toimintalogiikkaa voinut muuttaa sellaiseksi, että ohjelma olisi soveltunut verkon arkistointiin parhaalla mahdollisella tavalla. Niinpä päätimme kehittää kokonaan uuden haravaohjelmiston, joka olisi ensimmäinen yleisesti saatavilla oleva nimenomaan verkon arkistointiin tarkoitettu työkalu.

HYK ja CSC kehittivät yhteistyössä toiminnalliset periaatteet verkkojulkaisujen haravointi- ja arkistointiohjelmistolle. Ohjelmointi käynnistyi vuoden 1999 loppupuolella, ja testaus aloitettiin vuonna 2000. Tätä kirjoitettaessa sovelluksen viimeisin versio on 1.2.2, ja se valmistui syyskuussa 2002. Toisin sanoen CSC jatkoi ohjelman parantelua vielä kauan NEDLIB-projektin päättymisen jälkeenkin haravan käytöstä saatujen kokemusten nojalla.

NEDLIB-hanke sai aikaan runsaasti käyttökelpoista ohjeistusta, mutta vähän työkaluja ja välineitä. Mutta projektissa rakennettu haravaohjelmisto on ollut sitäkin suositumpi. Kansalliskirjastot ovat hyödyntäneet sitä oman maansa verkkoaineiston tallentamiseen joko osittain tai kokonaan esimerkiksi Sveitsissä, Norjassa, Tsekissä ja Virossa. Kokeilijoita on ollut ainakin kymmenessä maassa. Ohjelman avulla on saatu tulevia sukupolvia varten talteen kymmeniä miljoonia dokumentteja. Yhtä tärkeää on ollut se kokemus, jota ohjelman kehityksestä ja käytöstä on saatu myöhempiä hankkeita varten.

NEDLIB-harava koostuu useista toisiinsa liittyvistä moduleista. Haravaprosessit noutavat aineistoa verkosta. Toisen modulin tehtävänä on tutkia saapunut dokumentti ja etsiä siitä hyperlinkit. Kolmas osio tutkii ovatko nämä linkit keruurajausten mukaisia; esimerkiksi jos haravointi kohdistuu vain Helsingin yliopiston verkkoon (helsinki.fi), linkit jotka kohdistuvat muualle eivät kelpaa.

Yhden haravaohjelman modulin tehtävänä on haravoille syötettävien URL-osoitteiden priorisointi; huonosti käyttäytyvä harava voisi tukkia www-palvelimen lähettämällä sille samanaikaisesti hyvin suuren joukon tiedostopyyntöjä ja siksi pyyntöjen väliin on jätettävä sopiva, palvelimen koon mukaan joustava aikaväli.

Verkkoaineiston tallennukseen tarkoitetussa haravassa on tietenkin oltava myös arkistointimoduli. NEDLIB-haravassa tämä sovellus laskee aluksi jokaisen tiedoston MD5-tarkistussumman. MD5 on Internet-standardi (RFC1321), jonka ominaisuuksiin kuuluu se, että kaksi erilaista dokumenttia ei (periaatteessa) koskaan voi saada samaa MD5-tarkistussummaa. Tarkistussummalla on kaksi tärkeää tehtävää. Sitä käytetään tuplakontrolliin, jolle on totisesti tarvetta: Suomen verkkoavaruus koostui kesällä 2002 43 miljoonasta URL-osoitteesta, mutta niistä kertyi vain 11.7 miljoonaa dokumenttia. Jokainen tiedosto löytyi siis verkosta liki neljästä osoitteesta. MD5-tarkistussummasta voidaan myös tehdä resurssin uniikki tunniste, jonka avulla haluttu dokumentti voidaan löytää arkistosta.

NEDLIB-haravassa arkistointimoduli kasaa kootut tiedostot tar-pakettiin, joka kompressoidaan tallennusta varten. Tavoitteena on arkistoidun aineiston käsittelyn helpottaminen ja tarvittavan tallennuskapasiteetin vähentäminen. Tässä on onnistuttu vähintään kohtuullisesti; kesällä 2002 luotu Suomen verkkoarkisto oli kooltaan vaivaiset puoli teratavua. Vielä vuonna 1993 tämän datamäärän tallentaminen levylle olisi ollut kallista, mutta 2003 touhu on halpaa ja 2013 puolikkaan teratavun tallennus ei maksa mitään; levytilan hinta kun putoaa keskimäärin 30 % vuodessa.

Keruun aakkoset

Verkkoa arkistoitaessa haravan annetaan koota mahdollisimman kattavasti jossakin maassa julkistettu aineisto. Yksinkertaisimmillaan haravan annetaan koota kaikki aineisto omasta maa-domainista, esimerkiksi Suomessa *.*.fi:stä ja Ruotsissa *.*.se:stä. Tästä voidaan jatkaa kokoamalla Internet-nimipalvelujen ylläpitäjiltä tai muulla tavoin tiedot suomalaisten organisaatioiden ylläpitämistä *.*.com, *.*.org, *.*.net jne. palvelimista. Esimerkiksi Ruotsissa kootusta aineistosta vain noin 60 % on *.*.se-domainista, ja Suomessa tulokset ovat olleet samantapaisia. Valitettavasti emme ole saaneet kotimaisten palvelimien osoitteita suoraan nimipalvelujen ylläpitäjiltä tai domain-nimiä myyviltä firmoilta. Onneksi olemme saaneet yhteistyökumppaniksi suomalaisen tiedonhakuportaalia ylläpitävän yrityksen, jolta saimme kesällä 2003 aloitettavaa toista hakukierrosta varten noin 60.000 suomalaisen palvelimen osoitetiedot. Ilman tätä apua emme pystyisi keräämään etenkään muissa domaineissa kuin .fi:ssä olevaa aineistoa kovinkaan kattavasti.

Vaikeinta on löytää ulkomaisilla palvelimilla olevia yksittäisiä suomalaisia sivustoja. Meillä ei ole mitään arviota siitä, miten kattavasti nämä sivustot on saatu talteen, ja toivommekin että näiden palvelujen ylläpitäjät kertovat meille havaitsemistaan puutteista tai perustamistaan merkittävistä uusista sivustoista.

Jos dokumentissa on niin sanottuja inline-kuvia, ne kerätään aina arkistoon ja tallennetaan samaan pakettiin alkuperäisen dokumentin kanssa. Arkistoon voi siis päätyä myös ulkomaista materiaalia, jos suomalainen verkkosivu ei ole ”kokonainen” ilman sitä. Toisaalta osa kotimaisesta aineistosta voi olla alun perin oikeudettomasti verkkoon siirrettyä tai muuten sisällöltään laitonta. Jos ongelmia ilmenee, kansalliskirjastolla tulee olemaan mahdollisuus poistaa arkistossa oleva dokumentti yleisökäytöstä. Tutkimuksen tarpeita varten nämäkin aineiston kannattaa ainakin minun mielestäni säilyttää.

Keruuohjelmistoa voidaan tietenkin soveltaa paljon rajatummin (miksei myös laajemmin) kuin kansallisella tasolla. Periaatteessa mikä tahansa yliopisto tai ammattikorkeakoulu voisi käyttää haravaa omilla www-palvelimillaan olevien dokumenttien keruuseen ja tallennukseen. Näitä projekteja suunniteltaessa kannattaa kuitenkin miettiä tarvitaanko omaa arkistoa kun kansalliskirjasto tallentaa aineiston varsin kattavasti.

Dokumenttien keruuta voidaan haluttaessa tehostaa normaalikäytännöstä. NEDLIB-harava voidaan esimerkiksi opettaa olemaan välittämättä robots.txt-tiedostossa olevasta kiellosta kerätä dokumentteja www-palvelimelta tai jostakin sen hakemistosta. Tällöin on valmistauduttava kiukkuisten webmastereiden valituksiin siitä, että haravamme käyttäytyy huonosti. Ja suojatussa hakemistossa ei välttämättä todellakaan ole mitään merkittävää. Jos jokin palvelin tai hakemisto on suojattu käyttäjätunnuksella ja salasanalla, ne voidaan määritellä keruuohjelmaan. Tämä edellyttää sopimusta palvelimen ylläpitäjän tai julkaisijan kanssa.

Lopputuloksen kannalta merkittävää on myös se, miten haravointi ajoitetaan. Ruotsissa on kerätty kaikki aineisto tietyin väliajoin; näin saadaan otos verkon sisällöstä jonakin ajankohtana. Suomessa aineisto pyritään saamaan talteen pari kertaa vuodessa. Tämän menettelyn ongelma on se, että usein muuttuva aineisto, esimerkiksi verkkosanomalehdet, ei tule mukaan. Lisäksi erikoistilanteisiin kuten vaaleihin liittyviä erikoissivustoja kuten ehdokkaiden omia, usein hyvin lyhytikäisiä sivuja ei saada talteen. Näitä ongelmia voidaan lievittää keräämällä esimerkiksi lehtien sivut aina tarpeen mukaan, ja tekemällä esimerkiksi vaalien yhteydessä erikoispoimintoja. HYK keräsi keväällä 2003 eduskuntavaaleihin liittyvät sivut, joita saatiin talteen noin 15.000.

Haravoinnin kannalta pahin ongelma on niin sanottu deep Web; aineisto joka on tallennettu tietokantoihin ja joka rakennetaan dynaamisesti aina käyttäjän sitä pyytäessä. Nykyisillä tekniikoilla haravat eivät yllä tähän aineistoon. On vaikea arvioida miten suuri osa relevantista aineistosta jää saamatta, mutta todennäköisesti osuus on merkittävä. Toivottavasti joko haravoinnin tai tietokantojen tekniikka tai verkkojen käyttö kehittyy niin, että ongelma saadaan ratkaistuksi.

Haravoidun aineiston haku

Miten haravointiohjelmiston keräämät kymmenet ja tulevaisuudessa sadat miljoonat dokumentit käsitellään? Kuvaan seuraavaksi joitakin yleisperiaatteita.

Tallennuksen yhteydessä tallennetaan aikaleima, jolla on kaksoisrooli. Tiedonhaun kannalta aikaleima mahdollistaa "vertikaalisen selauksen", asiakas voit tutkia saman - tai samassa verkko-osoitteessa olleen - dokumentin eri aikoina voimassa olleita versioita. Voidaan myös selvittää, missä osoitteissa sama dokumentti on ollut saatavilla ja milloin. Tähän tarvitaan MD5-tarkistussummaan perustuva tuplien poisto.

Tarkistussummalla ja aikaleimalla voidaan hoitaa myös tallennetun aineiston autentisointi. Laskemalla tarkistussumma uudelleen arkistossa olevasta tiedostosta voidaan todistaa ettei dokumenttia ole muokattu säilytyksen aikana. Aikaleimat taas osoittavat sen periodin, jolloin dokumentti on ollut käsillä olevassa muodossa. Kun kasvava osa tieteellisestä dokumentaatiosta siirtyy verkkoon, on tärkeää että kansalliskirjaston verkkoarkistoa voidaan käyttää referenssinä silloin, kun halutaan esimerkiksi selvittää, koska jokin tietty tieteellinen löydös on esitetty verkossa, ja missä muodossa julkistus on tarkkaan ottaen tehty. Jos löydös on julkaistu vain elektronisesti, tämäntyyppinen referenssipalvelu on suorastaan välttämätön. Toki esimerkiksi yliopistot voivat ylläpitää omia elektronisen aineiston pitkäaikaissäilytysjärjestelmiä, mutta yhteistyöllä saavutettaneen parhaat tulokset, samalla kun kustannukset voidaan minimoida. Elektroniset vapaakappaleethan on tallennettava tulevan lain mukaan joka tapauksessa; miksi tämä työ pitäisi vielä toistaa yliopistoissa?

Verkkoaineiston indeksointia ja käyttöä varten on kehitetty sovelluksia pohjoismaisena yhteistyönä Nordunet2:n ja kansalliskirjastojen rahoittamassa Nordic Web Archive –hankkeessa. Yhteistyö jatkuu Nordinfon tuella NWA II-projektissa.

NWA valitsi arkistoidun aineiston hakukoneeksi norjalaisen FAST-yrityksen Search –sovelluksen. Sitä käytetään paitsi yrityksen globaalissa Internet-hakukoneessa eli Allthewebissä myös tieteellisten verkkosivujen ja artikkeleiden Scirus-hakupalvelussa. Edellisessä on pari miljardia sivua ja jälkimmäisessäkin yli 150 miljoonaa; on siis varmaa ettei muutaman kymmenen miljoonan suomalaisen verkkosivun indeksointi tuota FAST-sovellukselle erityisempiä ongelmia. Ohjelmiston koti on Helsingin yliopiston atk-osaston konesaliin sijoitettu kuuden Linux-palvelimen klusteri, jolla saatiin päätökseen ensimmäisen keruukierroksen aikana saadun aineiston indeksointi kesällä 2003.

Vähimmilläänkin - siis jos itse dokumenttia ei voida indeksoida koska siinä ei ole tekstiä - hakutermeinä voi käyttää URL-osoitetta, poiminnan aikaleimaa sekä dokumentista laskettua tarkistussummaa. Indeksoinnin kannalta hankalia tapauksia ovat esimerkiksi ohjelmat sekä sellaiset kuvadokumentit, joiden nimiötä - eli siis siellä olevaa tekstimuotoista kuvailutietoa - ei pystytä lukemaan. FAST-hakusovellus pystyy käsittelemään yli 200 tiedostomuotoa. Lisäksi se tunnistaa 80 kieltä ja kykenee 20 kielen lingvistiseen analyysiin. Jos siis dokumentissa on tekstiä, se kyetään indeksoimaan tehokkaasti.

Kansalliskirjastot ovat yhdessä rakentaneet NWA-hankkeessa arkistoiden aineiston käytössä ja selauksessa tarvittavia erikoistyökaluja, joita ei voi ostaa mistään. Tässä työssä Kungliga bibliotekin Kulturarw-projektin kokemuksista ja välineistä on ollut runsaasti hyötyä. NWA II –projektin päätteeksi nämä ohjelmistot on tarkoitus tarjota muiden verkkoarkistojen rakentajien käyttöön maksutta niin sanotun GNU-lisenssin perusteella. Toisin sanoen ohjelmaa saa käyttää ilmaiseksi, mutta sitä ei saa myydä eteenpäin. Toivomme myös, että ohjelmiin tehdyt parannukset tulisivat kaikkien soveltajien hyödyksi.

Tulevaisuuden näkymiä

HYK:lla on nyt tallessa kotimaista verkkoaineistoa vajaat 12 miljoonaa tiedostoa, ja toinen keruukierros on alkamassa elokuussa 2003. Miten tästä eteenpäin?

Oleellinen askel on verkkoarkiston tarjoaminen yleisökäyttöön. Tämä voidaan toteuttaa uuden vapaakappalelain astuttua voimaan, näillä näkymin alkuvuodesta 2005. Jos uusi vapaakappalelaki ja tekijänoikeuslaki toteutuvat ehdotetussa muodossa, arkistoidun aineiston haku voidaan avata kaikille Fennica-kansallisbibliografiatietokannan tapaan, mutta itse aineiston katselu tulee olemaan mahdollista vain vapaakappalekirjastoista, tähän tarkoitukseen varatuilta laitteilta.

Järjestelmän vasteaika tulee olemaan haun osalta hyvin lyhyt; tiedoston haku levyltä ja tähän liittyvät operaatiot (pakkauksen ja tar-paketoinnin purku) vievät jonkin verran aikaa. Last resort -tyyppiselle palvelulle esimerkiksi 10-15 sekuntia on varmasti siedettävä hakuaika. Arkistoa tarvitaan vain jos dokumenttia ei enää löydy verkosta, ja jos vaihtoehtoina ovat se, että dokumentti saadaan näytölle 10 sekunnissa ja se, ettei dokumenttia saa lainkaan, pieni viive palvelussa lienee helppo hyväksyä.

Vapaakappalelain valmistelussa on hyödynnetty verkon arkistoinnista saatuja käytännön kokemuksia. Olemme varmoja siitä, että verkkoaineiston osalta uusi laki on toimiva ja toteuttamiskelpoinen, ja toivoa sopii ettei lain eduskuntakäsittelyssä tehdä virheitä. Todennäköisyys tähän on pieni, sillä pitkän lainvalmisteluprosessin mittaan kaikille osapuolille on tullut selväksi paitsi verkkoaineiston tallennuksen tärkeys, myös se, että ehdotettu menettelytapa – automaattinen poiminta – on helpoin mahdollinen paitsi kirjastolle myös luovutusvelvollisille.

On esitetty käsityksiä, että verkkoaineiston pitkäaikaissäilytys on mahdotonta koska aineistoa on valtavan paljon. Nämä kriitikot unohtavat sen, että www-aineisto on säilytyksen kannalta yksinkertaista: vuonna 2002 kerätystä Suomen aineistosta noin 97 % oli HTML-, JPEG- tai GIF-dokumentteja, joiden säilyvyys on hyvä, koska näille tiedostomuodoille on niiden yleisyyden vuoksi olemassa luku- ja käsittelyohjelmia vielä hyvin pitkään. Vain hieman kärjistäen voisi sanoa, että tuleville sukupolville on helpompi tallentaa miljoona web-dokumenttia kuin 100 cd-rom-levyä. Jälkimmäisten arkistointi kun on mahdollista vain jos pystymme jäljittelemään romppujen alkuperäistä käyttöympäristöä tulevaisuuden laitteilla ja käyttöjärjestelmissä. Ennen pitkää verkkoarkistoon on kuitenkin rakennettava tai kopioitava muualta konversio-ohjelmia eksoottisemmissa tiedostoformaateissa tallennetun aineiston säilyttämiseksi.

Ohjelmistokehityksen osalta nykytilanne on mielenkiintoinen. Useat eurooppalaiset kansalliskirjastot ovat liittoutumassa The Internet Archiven kanssa uuden sukupolven verkkoharavan kehittämiseksi. Pohjoismailla on tässä työssä merkittävä rooli, koska meillä on verkkojulkaisujen arkistoinnista paljon käytännön kokemusta. Tätä kautta NEDLIB-haravan kehittämiseksi tehty työ hyödyttää meitä jatkossakin. Jos kehitteillä oleva yhteistyöhanke toteutuu suunnitelmien mukaisesti, parin vuoden kuluttua kansalliskirjastoilla on käytössään entistä tehokkaammat välineet verkkoaineiston käsittelyyn. Lisäbonuksena saanemme käyttöömme myös Internet Archiven keräämät suomalaiset sivut.

On varmaa, että kansalliskirjastot tulevat tekemään verkkojulkaisujen arkistoinnissa tiivistä yhteistyötä toistensa ja muiden saman alan aktivistien kanssa. Arkistointiin kehitetyt ohjelmat ovat osin uniikkeja; mitään vastaavaa ei voi ostaa. Yhdessä voimme huolehtia siitä, että näiden sovelluksien tuki ja jatkokehitys on tehokasta. Kansainvälisen yhteistyön ohella verkkoaineiston haravointi ja tallennus voi poikia myös hedelmällistä kansallista yhteistoimintaa. Haravointisovellus kun kerää kaiken verkkoaineiston, siis myös esimerkiksi asiakirjat siinä kuin julkaisutkin. Kansalliskirjasto ja –arkisto ovatkin jo sopineet siitä, että verkossa julkistetut asiakirjat kootaan kirjaston verkkoarkistoon.

Verkkojulkaisujen keskimääräinen elinikä on hyvin lyhyt, arviolta noin puoli vuotta. Verkkoarkiston ansiosta tämä aineisto pystytään säilyttämään tuleville sukupolville. Kenties tallennettujen sivujen joukosta löydetään muutaman kymmenen vuoden päästä silloisen presidenttimme lukiolaisena laatimat kotisivut. Yksittäisiä helmiä merkittävämpi on kuitenkin arkiston muodostama pitkittäisleikkaus suomalaisesta verkosta sekä ne uudet palvelut ja tutkimusmenetelmät, jotka tämä palvelu mahdollistaa.

Verkkoarkisto on hyvä esimerkki siitä, miten kansalliskirjaston toiminta on laajentunut ja laajenee uusille aloille, ja miten tässä prosessissa hyödynnetään uusia menetelmiä vanhojen rinnalla. 2000-luvun kansalliskirjasto on joustava laitos, joka kehittää moderneja työtapoja ja rakentaa uusia järjestelmiä yhdessä ulkomaisten kirjastojen ja muiden kotimaisten muistiorganisaatioiden kanssa. Yhteistyön ja innovatiivisuuden avulla me kykenemme jatkossakin huolehtimaan sekä perinteisistä että uusista aineistoista, ja tarjoamaan asiakkaillemme monipuolisia palveluita.

Lisää aiheesta verkossa

Alltheweb http://www.alltheweb.com/

FAST http://www.fastsearch.com/us/company/

The Internet Archive http://www.archive.org/

NEDLIB eli Networked Electronic Deposit Library-hanke http://www.kb.nl/coop/nedlib/

Nordic Web Archive –hanke http://nwa.nb.no/

Scirus-hakupalvelu http://www.scirus.com/