Helsingin yliopiston kirjasto, Suomen kansalliskirjasto
kansi   lukijalle   esipuhe   kirjoittajat   galleria


Kirja  tietoverkkojen maailmassa

 «

    aihepiirit    

  I  

  II  

  III  

  IV  

  V  

  VI  

» 




Haravoidun aineiston haku


Internetin pitkät varjot
1 Verkon haravoinnin lyhyt historia
2 Harava virtuaalilehdille ja muulle verkkoaineistolle
3 Keruun aakkoset
4 Haravoidun aineiston haku
5 Tulevaisuuden näkymiä
* Lisää aiheesta verkossa
tulosta Tulostettava versio
Miten haravointiohjelmiston keräämät kymmenet ja tulevaisuudessa sadat miljoonat dokumentit käsitellään? Kuvaan seuraavaksi joitakin yleisperiaatteita.

Tallennuksen yhteydessä tallennetaan aikaleima, jolla on kaksoisrooli. Tiedonhaun kannalta aikaleima mahdollistaa "vertikaalisen selauksen", asiakas voit tutkia saman - tai samassa verkko-osoitteessa olleen - dokumentin eri aikoina voimassa olleita versioita. Voidaan myös selvittää, missä osoitteissa sama dokumentti on ollut saatavilla ja milloin. Tähän tarvitaan MD5-tarkistussummaan perustuva tuplien poisto.

Tarkistussummalla ja aikaleimalla voidaan hoitaa myös tallennetun aineiston autentisointi. Laskemalla tarkistussumma uudelleen arkistossa olevasta tiedostosta voidaan todistaa ettei dokumenttia ole muokattu säilytyksen aikana. Aikaleimat taas osoittavat sen periodin, jolloin dokumentti on ollut käsillä olevassa muodossa. Kun kasvava osa tieteellisestä dokumentaatiosta siirtyy verkkoon, on tärkeää että kansalliskirjaston verkkoarkistoa voidaan käyttää referenssinä silloin, kun halutaan esimerkiksi selvittää, koska jokin tietty tieteellinen löydös on esitetty verkossa, ja missä muodossa julkistus on tarkkaan ottaen tehty. Jos löydös on julkaistu vain elektronisesti, tämäntyyppinen referenssipalvelu on suorastaan välttämätön. Toki esimerkiksi yliopistot voivat ylläpitää omia elektronisen aineiston pitkäaikaissäilytysjärjestelmiä, mutta yhteistyöllä saavutettaneen parhaat tulokset, samalla kun kustannukset voidaan minimoida. Elektroniset vapaakappaleethan on tallennettava tulevan lain mukaan joka tapauksessa; miksi tämä työ pitäisi vielä toistaa yliopistoissa?

Verkkoaineiston indeksointia ja käyttöä varten on kehitetty sovelluksia pohjoismaisena yhteistyönä Nordunet2:n ja kansalliskirjastojen rahoittamassa Nordic Web Archive –hankkeessa. Yhteistyö jatkuu Nordinfon tuella NWA II-projektissa.

NWA valitsi arkistoidun aineiston hakukoneeksi norjalaisen FAST-yrityksen Search –sovelluksen. Sitä käytetään paitsi yrityksen globaalissa Internet-hakukoneessa eli Allthewebissä myös tieteellisten verkkosivujen ja artikkeleiden Scirus-hakupalvelussa. Edellisessä on pari miljardia sivua ja jälkimmäisessäkin yli 150 miljoonaa; on siis varmaa ettei muutaman kymmenen miljoonan suomalaisen verkkosivun indeksointi tuota FAST-sovellukselle erityisempiä ongelmia. Ohjelmiston koti on Helsingin yliopiston atk-osaston konesaliin sijoitettu kuuden Linux-palvelimen klusteri, jolla saatiin päätökseen ensimmäisen keruukierroksen aikana saadun aineiston indeksointi kesällä 2003.

Vähimmilläänkin - siis jos itse dokumenttia ei voida indeksoida koska siinä ei ole tekstiä - hakutermeinä voi käyttää URL-osoitetta, poiminnan aikaleimaa sekä dokumentista laskettua tarkistussummaa. Indeksoinnin kannalta hankalia tapauksia ovat esimerkiksi ohjelmat sekä sellaiset kuvadokumentit, joiden nimiötä - eli siis siellä olevaa tekstimuotoista kuvailutietoa - ei pystytä lukemaan. FAST-hakusovellus pystyy käsittelemään yli 200 tiedostomuotoa. Lisäksi se tunnistaa 80 kieltä ja kykenee 20 kielen lingvistiseen analyysiin. Jos siis dokumentissa on tekstiä, se kyetään indeksoimaan tehokkaasti.

Kansalliskirjastot ovat yhdessä rakentaneet NWA-hankkeessa arkistoiden aineiston käytössä ja selauksessa tarvittavia erikoistyökaluja, joita ei voi ostaa mistään. Tässä työssä Kungliga bibliotekin Kulturarw-projektin kokemuksista ja välineistä on ollut runsaasti hyötyä. NWA II –projektin päätteeksi nämä ohjelmistot on tarkoitus tarjota muiden verkkoarkistojen rakentajien käyttöön maksutta niin sanotun GNU-lisenssin perusteella. Toisin sanoen ohjelmaa saa käyttää ilmaiseksi, mutta sitä ei saa myydä eteenpäin. Toivomme myös, että ohjelmiin tehdyt parannukset tulisivat kaikkien soveltajien hyödyksi.


«  1  2  3  4  5  *  »
URN:NBN:fi-fe20031623