Verkkoharavointi

Kansalliskirjasto kerää ja arkistoi kotimaista yleisön saatavilla olevaa verkkoaineistoa mahdollisimman kattavasti ja monipuolisesti. Verkkoaineistoja haravoidaan keräysohjelmiston avulla automaattisesti tai julkaisijoiden avustuksella. Jos Kansalliskirjasto ei voi haravoida aineistoa automaattisesti, mutta pitää sitä merkittävänä, se ottaa yhteyttä verkkojulkaisijaan, joka luovuttaa aineiston tai mahdollistaa sen haravoinnin.

Aineistoa löytyy verkkoarkistosta kokoteksti-indeksoituna. Yleisö voi katsella verkkoarkiston sisältöä vapaakappaletyöasemilla joita on tulossa käyttöön Kansalliskirjaston lisäksi Eduskunnan kirjastoon, Kansalliseen audiovisuaaliseen arkistoon sekä vapaakappalekirjastoihin eri puolella Suomea.

Vuosikeräys

Laaja kotimaisten verkkoaineistojen keräys toteutetaan ainakin kerran vuodessa automaattisen keräysohjelman avulla. Kyseessä on ns. maa-domain tai Suomi-keräys eli Kansalliskirjasto arkistoi verkkosivustot, joiden verkkotunnus on ".fi" tai ".ax". Myös muita kotimaisia sivuja arkistoidaan.

Teemakeräykset

Teemakeräysten tarkoituksena on arkistoida tiettyyn aiheeseen tai ajankohtaiseen tapahtumaan liittyvää verkkoaineistoa. Tällaisia aineistoja ovat esimerkiksi:

  • merkittäviin valtiollisiin tapahtumiin liittyvät ajankohtaiset aineistot (esim. vaalit ja valtiovierailut)

  • myös muihin tapahtumiin liittyvät aineistot (esim. suuret urheilukilpailut, festivaalit ja konsertit)

  • odottamattomat maailmanpoliittiset käänteet, luonnonkatastrofit yms. tilanteet

  • yhteistyössä museoiden, arkistojen ja erilaisten tutkimuslaitosten kanssa toteutettavat keräykset.

Teemakeräysten linkit kerätään Kansalliskirjaston henkilökunnan laatimien listojen pohjalta. Keräyksistä laaditaan kokoelmatason kuvailut kansallisbibliografiaan tai kansallisdiskografiaan eli Fennica tai Viola -tietokantoihin.


Teknisiä tietoja

Kansalliskirjasto suorittaa keräyksiä lähinnä Heritrix hakurobottia käyttäen. Keräyksien pääasiallisina kohteina ovat verkkosivustot, mutta myös muita tiedostoja kerätään (esim. ftp). Keräykset toteutetaan rinnakkaisesti siten, että yksittäiselle www-palvelimelle aiheutuva kuormitus jakaantuu pitkälle aikavälille ja kokonaisrasitus verkolle pysyy pienenä. Laajimmatkaan toteutetut keräykset eivät ole aiheuttaneet havaittavaa tiedonsiirtomäärien kasvua runkoverkkotasolla.

Käydessään keräämässä verkkosivustoja Kansalliskirjaston käyttämä hakurobotti tunnistautuu käyttämällä seuraavia http-kenttien arvoja:

User-Agent: Mozilla/5.0 (compatible; heritrix/1.14.0+http://www.nationallibrary.fi/)
From: kk-webcrawler@helsinki.fi


Kansalliskirjasto myös etsii Suomessa sijaitsevia www-sivustoja käymällä läpi verkon palvelimia ja tarkistamalla jakavatko ne www-sivuja ulkomaailmaan päin (HTTP/portti 80). Uusien www-sivujen etsintä tapahtuu Kansalliskirjaston koneesta nwa5a.lib.helsinki.fi (IP 128.214.91.134)

Yleensä keräyksissä noudatetaan ns. robots.txt tiedoston sisältöä. Kansalliskirjasto voi kuitenkin päättää kerätä myös robots.txt tiedoston suojaamaa aineistoa jos sitä pidetään toteutettavan keräyksen kannalta merkittävänä.

Kerätyt tiedostot, sekä tiedostojen siirrossa tapahtunut protokollatason tietoliikenne, tallennetaan sellaisenaan ARC tai WARC tiedostoformaattiin. Kansalliskirjasto tallentaa ko. arkistotiedostot tietojärjestelmiinsä.

Haravointiin liittyvät kysymykset voi lähettää osoitteeseen: e-vapaa(at)helsinki.fi

Tietokannat


Sivustolta
Tämän sivun URL : http://www.kansalliskirjasto.fi/julkaisuala/vapaakappaleet/verkkoharavointi.html