Skip to main content

Verkkoaineistot

Sanapilvi verkkoaineistoihin liittyvistä sanoista

Kansalliskirjaston tehtävänä on arkistoida kotimaista yleisön saatavilla olevaa verkkoaineistoa. Haettavaan ja tallennettavaan verkkoaineistoon sisällytetään edustavasti ja monipuolisesti tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa.

Aineiston hakeminen ja tallentaminen perustuu opetus- ja kulttuuriministeriön kulttuuriaineistolain mukaisesti vahvistamaan keräyssuunnitelmaan. Aineiston tietosuojasta kerrotaan Kansalliskirjaston tallentamia elektronisia aineistoja koskevassa tietosuojailmoituksessa.

Avoimesti verkossa saatavilla olevia aineistoja kerätään automaattisesti keräysohjelmiston avulla vuosittain sekä kohdennettuina tiettyyn aiheeseen liittyvinä teemakeräyksinä. Kansalliskirjasto voi myös pyytää verkkojulkaisijaa luovuttamaan aineistoja, jos niiden automaattinen kerääminen ei ole mahdollista. Tällöin verkkoaineisto otetaan vastaan luovutuksena verkkojulkaisijalta tai aineiston välittäjältä.

Sekä kerätty että luovutettu elektroninen aineisto - kuten e-kirjat, e-lehdet ja musiikkitallenteet - ovat asiakaskäytössä vapaakappaletyöasemilla, joita on Kansalliskirjaston lisäksi muissa vapaakappalekirjastoissa, Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa arkistossa.

Verkkoaineiston luovuttaminen

Luovutuksina verkkojulkaisijoilta otetaan vastaan mm. elektronisessa muodossa olevia:

 • kirjoja ja lehtiä
 • julkaisusarjojen osia
 • virallisjulkaisuja
 • karttoja
 • musiikkiäänitteitä ja nuottijulkaisuja


Verkkojulkaisuja otetaan vastaan luovutuslomakkeella.

Suuria aineistomääriä on mahdollista luovuttaa myös SFTP-yhteyden kautta tai tallennusvälineellä (esimerkiksi ulkoinen kovalevy tai muistitikku). Lisätietoja verkkoaineiston luovutuksesta voi pyytää osoitteesta vapaakappale(at)helsinki.fi.

Elektronisia aineistoja otetaan vastaan kansallisissa pitkäaikaissäilytyspalveluissa (PAS-palvelut) määritellyissä säilytys- ja siirtokelpoisissa tiedostomuodoissa. Luettelo tiedostomuodoista löytyy kansallisten pitkäaikaissäilytyspalvelujen Digitalpreservation.fi-verkkosivuilta.

Luovutettaessa metadataa ONIX-muodossa on ONIX-metadatan sisällettävä vähintään seuraavat kentät (linkki Excel-taulukkoon).

Esimerkkejä ONIX-metadatasta XML-muodossa (tiedostot on zip-pakattu):

Verkkosivujen automaattinen kerääminen

1) Vuosikeräykset

Kotimaisten verkkoaineistojen keräys toteutetaan ainakin kerran vuodessa automaattisen keräysohjelman avulla. Kansalliskirjasto arkistoi verkkosivustoja, joiden verkkotunnus on ".fi" tai ".ax". Myös ne kotimaiset sivustot, joiden verkkotunnus on ".com", ".net" tms. kuuluvat kerättäviin sivustoihin. Vuosikeräykset eivät perustu sisällölliseen, aiheeseen tai teemaan liittyvään valintaan.

Automaattisella ohjelmistolla ei saada talteen kaikkea verkossa olevaa kotimaista julkaisutuotantoa. Esimerkiksi maksullisia verkkojulkaisuja ja tietokantoja ei voida kerätä automaattisesti. Näiden aineistoryhmien tallentaminen edellyttää yhteistyötä verkkojulkaisijoiden tai kustantajien kanssa.

Vuosikeräykset kuvaillaan kansallisbibliografiaan kokoelmatasolla. Sivustojen tallentumisen voi tarkistaa verkkoarkiston hakemistosta. Aineistoihin voi vapaakappaletyöasemilla tehdä myös sanahakuja.

2) Teemakeräykset

Teemakeräysten tarkoituksena on täydentää vuosikeräyksiä ja tallentaa tiettyyn aiheeseen tai ajankohtaiseen tapahtumaan liittyviä verkkoaineistoja. Tällaisia ovat esimerkiksi:

 • merkittäviin valtiollisiin tapahtumiin liittyvät aineistot (esim. vaalit)
 • merkittäviin tapahtumiin liittyvät aineistot (esim. suuret urheilukilpailut, kulttuuritapahtumat)
 • odottamattomiin maailmanpoliittisiin tilanteisiin tai esim. luonnonkatastrofeihin liittyvät aineistot
 • museoiden, arkistojen ja erilaisten tutkimuslaitosten kanssa yhteistyönä tehtäviin keräyksiin liittyvät aineistot.

Teemakeräysten linkit kerätään Kansalliskirjaston henkilökunnan laatimien listojen pohjalta. Myös teemakeräysten aineistot löytyvät verkkoarkistosta. Teemakeräykset kuvaillaan kansallisbibliografiaan kokoelmatasolla.

3) Keräyksen ulkopuolelle jäävät aineistot

Verkkoaineiston haun ja tallentamisen ulkopuolelle jäävät esimerkiksi:

 • yritysten ja yhteisöjen intranet-sivustot
 • uutis- ja keskusteluryhmät
 • verkkoaineisto, jonka tiedollinen, kuvallinen ja äänellinen sisältö on erityisen vähäinen (esimerkiksi verkkokauppojen ääni- ja kuvanäytteet, verkkolomakkeet sekä verkossa jaettavat varusohjelmat)
 • rekisterit ja tietokannat, jotka ovat arkistolaissa tarkoitettuja asiakirjoja tai koostuvat tällaisista asiakirjoista.

Näitä aineistoja voi kuitenkin tallentua verkkoarkistoon automaattisen keräyksen yhteydessä.

Teknisiä tietoja verkkoaineiston automaattisesta keruusta

Kansalliskirjasto tekee keräyksiä lähinnä Heritrix-hakurobottia käyttäen. Keräyksien pääasiallisina kohteina ovat verkkosivustot, mutta myös muita tiedostoja kerätään (esim. ftp-palvelimilta). Keräykset toteutetaan rinnakkaisesti siten, että yksittäiselle verkkopalvelimelle aiheutuva kuormitus jakaantuu pitkälle aikavälille ja kokonaisrasitus verkolle pysyy pienenä. Laajimmatkaan toteutetut keräykset eivät ole aiheuttaneet havaittavaa tiedonsiirtomäärien kasvua runkoverkkotasolla. Mahdollisista kuormituspiikeistä pyydämme ilmoittamaan sähköpostitse osoitteeseen kk-webcrawler(at)helsinki.fi.

Käydessään keräämässä verkkosivustoja Kansalliskirjaston käyttämä hakurobotti tunnistautuu käyttämällä seuraavia http-kenttien arvoja:

User-Agent: Mozilla/5.0 (compatible; heritrix/1.14.0+http://www.nationallibrary.fi/)
From: kk-webcrawler@helsinki.fi

Yleensä keräyksissä noudatetaan ns. robots.txt tiedoston sisältöä. Kansalliskirjasto voi kuitenkin päättää kerätä myös robots.txt tiedoston suojaamaa aineistoa jos sitä pidetään toteutettavan keräyksen kannalta merkittävänä.

Kerätyt tiedostot, sekä tiedostojen siirrossa tapahtunut protokollatason tietoliikenne, tallennetaan sellaisenaan ARC- tai WARC-tiedostoformaattiin. Kansalliskirjasto tallentaa nämä arkistotiedostot tietojärjestelmiinsä.

Haravointiin liittyvät kysymykset voi lähettää osoitteeseen: vapaakappale(at)helsinki.fi.