Helsingin yliopiston kirjasto, Suomen kansalliskirjasto
kansi   lukijalle   esipuhe   kirjoittajat   galleria


Kirja  tietoverkkojen maailmassa

 «

    aihepiirit    

  I  

  II  

  III  

  IV  

  V  

  VI  

» 



Juha Hakala

Internetin pitkät varjot



Internetin pitkät varjot
1 Verkon haravoinnin lyhyt historia
2 Harava virtuaalilehdille ja muulle verkkoaineistolle
3 Keruun aakkoset
4 Haravoidun aineiston haku
5 Tulevaisuuden näkymiä
* Lisää aiheesta verkossa
tulosta Tulostettava versio
Uudessa vapaakappalelakiehdotuksessa esitetään, että vapaasti käytettävää verkkoaineistoa ei tarvitsisi luovuttaa, mutta kansalliskirjastolla olisi oikeus kerätä tämä aineisto verkosta ja asettaa se tarjolle muun vapaakappaleaineiston tavoin. Kansalliskirjastolla on vastuu julkaistun kulttuuriperinnön tallentamisesta, ja verkossa julkistettu aineisto on tätä kulttuuriperintöä siinä missä perinteisempikin materiaali.

Verkon haravoinnin lyhyt historia

Ennen www-palvelujen suosion räjähdysmäistä kasvua 1993-1994 internetissä ei juuri ollut hakupalveluita. Tosin aineistomääräkin oli nykyiseen verrattuna huvittavan pieni. Mutta www:n ja internetin vakiinnutettua asemansa syntyi nopeasti palveluita, joiden korskeasti luvattiin kattavan koko verkon. Tiedämme nyt miten kävi: parhaat globaalit hakupalvelut eli, Google ja AlltheWeb, sisälsivät kesällä 2003 toki yli pari miljardia dokumenttia, mutta kattavat silti luotettavina pidettävien arvioiden mukaan vain noin 15 % koko internetistä. On ilmeistä, että Webin kiihtyvän kasvun myötä kate laskee jatkuvasti, samalla kun palvelujen ajantasaisuus heikkenee. Koska palvelua rakentava "haravointiohjelma" ei ehdi vierailla sivuilla kuin harvakseltaan, hakupalveluiden tarjoilemat URL-linkit ovat myös usein vanhentuneita.

Pohjoismaissa pidettiin jo 90-luvun puolivälissä tarpeellisena kehittää omia ohjelmia kansallisten www-hakupalvelujen rakentamiseen. Lundin yliopiston kirjaston Netlab-yksikön johdolla ja Nordinfon tuella rakennettiin Nordic Web Index, eli NWI-ilmaisohjelmistopaketti, joka sisälsi muun muassa Combine-nimisen verkkojulkaisujen haravointiohjelmiston sekä tanskalaisen Index Data -yrityksen rakentaman tietokantasovelluksen. NWI-sovelluksella rakennettiin kansalliset verkkoindeksit, joista voitiin hakea tietoa skandinaavisista verkkojulkaisuista www-selaimia käyttäen. Valitettavasti muutamassa vuodessa tekniikka ajoi tämän palvelun ohi, ja siihen kuuluneet kansalliset tietokannat suljettiin vähin äänin 2000-luvun alussa.

NWI-ohjelmistopaketista on jäänyt elämään vain Combine-haravointiohjelmisto, joka on edelleen tuotantokäytössä Kungliga biblioteketissa. Combinen kaltaiset haravointiohjelmistot toimivat siten, että niille annetaan joukko www-sivuja, joilta aloittaa aineiston keruu. Ohjelma hakee alkusivut aloitussivuilta löytyvien URL-tunnusten avulla ja tallentaa kaikki näistä www-sivuista löytämänsä URL-linkit. Kun kaikki aloitussivut on tutkittu ja indeksoitu hakutietokantaan, ohjelma hakee ne dokumentit, joihin edellisen keräyskierroksen verkkosivuissa viitattiin. Tämä toistuu, kunnes uusia dokumentteja ei enää löydy. Keruu voidaan rajata erikseen määriteltävien ehtojen avulla; voidaan kelpuuttaa esimerkiksi vain ne sivut, jotka sijaitsevat Suomen kansallisessa verkossa (.fi).

Kansalliskirjaston kannalta hakupalvelun tarjoaminen kotimaisiin verkkojulkaisuihin on kansallisbibliografiatyön täydennystä. Vielä oleellisempaa on kuitenkin verkkoaineiston tallentaminen, jotta tulevaisuudessa voitaisiin katsoa, mitä tämän päivän verkko oikein sisälsi. Koska haravointiohjelmisto noutaa verkosta periaatteessa kaiken, lienee helppoa muokata ohjelmaa niin, että se tallentaa dokumentit eikä hävitä niitä? Tämän yksinkertaisen oivalluksen pohjalta Ruotsin kansalliskirjasto käynnisti 1997 Kulturarw3-projektin, jossa ruotsalainen verkkoaineisto on koottu vuoteen 2003 mennessä jo ainakin kahdeksaan kertaan. Dataa on tallessa kymmeniä teratavuja; siitä suuri osa on tietenkin huonolaatuista tai vieläkin huonompaa, mutta aika parantaa: tietyn aikakauden roska muuttuu kulttuurihistorioitsijan tai arkeologin käsissä aarteeksi.

Maailmanlaajuisesti kansalliskirjastot eivät olleet verkon arkistoinnin pioneereja. Ensimmäisenä työhön ehätti The Internet Archive, joka on jatkanut verkon tallennusta yhtäjaksoisesti joskaan ei kattavasti jo vuodesta 1996. Arkiston koko oli jo vuonna 2002 yli 150 teratavua. Samaan aikaan kun Internet Archive keräsi yhteistä kulttuuriperintöämme talteen, kansalliskirjastoissa yleisin suuntaus oli vielä verkon sisältöjen ignorointi. Tämä toimintaperiaate perustui kahteen väärään olettamukseen. Webin nopeaa kehittymistä tietoteknisestä kokeilusta tärkeäksi tiedonhankintakanavaksi ei osattu ennakoida, ja niinpä vielä 90-luvun loppupuolella kirjastoja kehotettiin keskittymään vapaakappaletoiminnassaan kaupallisten kustantajien tuottamaan elektroniseen aineistoon, eli tuossa vaiheessa etupäässä cd-rom-levyihin.

Perinteinen käsitys aineistojen käsittelymenetelmistä oli toinen tämän virhearvion syy. Internetin miljardeja dokumentteja ei tietenkään voida luetteloida perinteiseen tapaan eivätkä kustantajat voi luovuttaa niitä kuten kirjoja. Mutta verkkoaineistolle voidaan kehittää täysin automaattisia käsittelymenetelmiä. Tämä tie ei ole helppo, kuten muun muassa Helsingin yliopiston kirjastossa on viime vuosina todettu, mutta tarvittavista välineistä merkittävä osa on jo olemassa.


1  2  3  4  5  *  »
URN:NBN:fi-fe20031623