Suomalainen verkkoarkisto

Suomalainen verkkoarkisto sisältää edustavan ja monipuolisen otoksen suomalaisesta internetistä.

Sisällysluettelo

Suomalaiseen verkkoarkistoon on tallennettu verkkosisältöjä vuodesta 2006 alkaen ja sinne kerätään aineistoja verkkosivustoilta (esimerkiksi htm- ja html-sivustoja) sekä sosiaalisen median kanavista (esimerkiksi Twitter, YouTube, Facebook ja TikTok). Kokoelma on kooltaan yli 4 300 miljoonaa tiedostoa (noin 300 teratavua). 

Verkkoarkiston hakemistossa on selattavissa esimerkiksi kokoelmaan tallennettujen sisältöjen URL-osoitteita, sosiaalisen median sisältöjä ja videoita. Hakemisto sijaitsee osoitteessa https://verkkoarkisto.kansalliskirjasto.fi

Verkkoarkistoon tallennetut aineistot ovat käytettävissä vain vapaakappaletyöasemilla, tarkemmat tiedot löytyvät sivulta Vapaakappaleaineistojen käyttö

Kerättävää sisältöä voi ehdottaa sivulla https://verkkoarkisto.kansalliskirjasto.fi/ehdota

Ota tilastoevästeet käyttöön upotetun YouTube-videon näyttämiseksi
Following frame contains a video

Kerääminen verkkoarkistoon

Kansalliskirjasto kerää kulttuuriaineistolain mukaisesti suomalaista ja suomalaisia koskevia verkkosisältöjä. Tallennus pyritään tekemään mahdollisimman automatisoidusti. 

Mikäli tallennus ei ole mahdollista esimerkiksi maksumuurin tai rekisteröitymisen vuoksi, Kansalliskirjasto voi pyytää haun ja tallennuksen mahdollistamista tai aineistojen luovuttamista. Näiden aineistojen tallentaminen edellyttää yhteistyötä verkkojulkaisijoiden tai -kustantajien kanssa. 

Verkkoarkisto mallintaa suomalaista internetiä sen tallennushetkellä. Tallennuksissa käytetään erilaisia ohjelmistoja kerättävistä aineistoista riippuen. Tallennusohjelmistot voivat olla esimerkiksi kansainvälisessä yhteistyössä toteutettuja, tallennettavien verkkopalvelujen itse tarjoamia rajapintoja tai Kansalliskirjaston itse kehittämiä. Verkkoaineiston lisäksi tallennetaan keräämiseen liittyvää metadataa ja varmistetaan aineiston pitkäaikaissäilytys. 

Kansalliskirjasto osallistuu verkkoaineistojen tallennuksen ja käyttöönasettamisen kehitystyöhön International Internet Preservation Consortiumin (IIPC) kanssa. 

 

Tallennusten ulkopuolelle jäävät aineistot

Verkkoaineiston haun ja tallentamisen ulkopuolelle jäävät esimerkiksi: 

  • verkkoaineisto, jonka tiedollinen, kuvallinen ja äänellinen sisältö on erityisen vähäinen (esimerkiksi verkkokauppojen ääni- ja kuvanäytteet, verkkolomakkeet sekä verkossa jaettavat varusohjelmat) 
  • rekisterit ja tietokannat, jotka ovat arkistolaissa (831/1994) tarkoitettuja asiakirjoja tai koostuvat tällaisista asiakirjoista. 

Näitä aineistoja voi kuitenkin tallentua verkkoarkistoon automaattisen keräyksen yhteydessä. 

Suomi-keräykset

Kotimaisten verkkoaineistojen keräys toteutetaan kerran vuodessa automaattisesti Heritrix-keräysohjelmistolla. Suomi-keräyksessä tallennetaan .fi- ja .ax-sivustoja sekä muita suomenkielisiksi tunnistettuja sivustoja. Tässä keräyksessä ei valikoida tallennettavia sivustoja niiden aiheen, teeman tai sisällön perusteella. 

Sisältöä keräykseen tallennetaan noin 600 000 sivustolta. 

Automaattisella ohjelmistolla ei saada talteen kaikkea verkossa olevaa kotimaista julkaisutuotantoa. Esimerkiksi maksullisia verkkojulkaisuja ja tietokantoja ei voida kerätä automaattisesti. Näiden aineistoryhmien tallentaminen edellyttää yhteistyötä verkkojulkaisijoiden tai kustantajien kanssa.

Teemakeräykset

Teemakeräykset täydentävät Suomi-keräyksiä. Niissä tallennetaan tiettyyn aiheeseen tai ajankohtaiseen tapahtumaan liittyviä verkkosisältöjä mahdollisimman kattavasti. Sisältöjä tallennetaan verkkosivustojen lisäksi sosiaalisen median kanavista. 

Teemakeräysten aihepiirejä ovat esimerkiksi:

  • valtiolliset ja yhteiskunnalliset tapahtumat, ilmiöt ja muutokset (esimerkiksi vaalit, valtiovierailut, lakot, kansainväliset konferenssit) 
  • kansalliset tapahtumat (esimerkiksi urheilukilpailut, kulttuuritapahtumat)
  • maailmanpoliittiset tilanteet (esimerkiksi konfliktit ja sodat) tai luonnonkatastrofit

Teemakeräyksessä tallennettavat verkkosisällöt kartoitetaan joko yhteistyökumppaneiden kanssa tai Kansalliskirjastossa. Keräyksiä voidaan toteutetaan yhdessä esimerkiksi museoiden, arkistojen, tutkimuslaitosten, tutkijoiden ja harrastajien kanssa. 

Teemakeräysten aiheita tai tallennettavia verkkosisältöjä voi ehdottaa lomakkeella osoitteessa https://verkkoarkisto.kansalliskirjasto.fi/ehdota

Jatkuvat keräykset

Kansalliskirjasto on kerännyt verkkouutisia ja -lehtiä vuodesta 2009 ja Twitter-sisältöjä vuodesta 2020 lähtien. 

Aiheita tai tallennettavia sisältöjä voi ehdottaa lomakkeella osoitteessa https://verkkoarkisto.kansalliskirjasto.fi/ehdota.

Lehtikeräys

Lehtikeräys sisältää kotimaisia verkkolehtiä ja lehtien verkkosivuja, joita kerätään sivujen päivitystiheyden mukaisesti joko päivittäin, viikoittain tai kuukausittain. Verkkolehtien tallennus alkoi vuonna 2009 Suoma-verkkolehtilistan avulla. 

Twitter-keräys   

Vuonna 2020 aloitettu jatkuva Twitter-keräys sisältää kotimaisia Twitter-tilejä. Keräykseen sisältyy sekä virallisia tilejä että henkilöiden tilejä. Tallennettavia tilejä on noin 3500 (vuonna 2022). 

Kerättävien tilien aihepiirejä ovat muun muassa: 

  • media
  • kulttuurilaitokset
  • yliopistot, korkeakoulut ja muut oppilaitokset
  • valtionhallinto
  • kunnat
  • oikeuslaitos
  • poliitikot (esim. presidentti, kansanedustajat, ministerit, mepit, entiset poliitikot)
  • ay-liike ja talouselämä
  • puolueet, yhdistykset, kansalaisjärjestöt, urheiluorganisaatiot
  • kirjailijat, muusikot, näyttelijät ja muut taiteilijat
  • muut julkisuuden henkilöt ja some-aktiivit
  • hengelliset ja uskonnolliset toimijat.

Teknisiä tietoja verkkoaineiston automaattisesta keruusta

Kansalliskirjasto tekee keräyksiä lähinnä Heritrix-hakurobottia käyttäen. Keräyksien pääasiallisina kohteina ovat verkkosivustot, mutta myös muita tiedostoja kerätään (esim. FTP-palvelimilta). Keräykset toteutetaan rinnakkaisesti siten, että yksittäiselle verkkopalvelimelle aiheutuva kuormitus jakaantuu pitkälle aikavälille ja kokonaisrasitus verkolle pysyy pienenä. Laajimmatkaan toteutetut keräykset eivät ole aiheuttaneet havaittavaa tiedonsiirtomäärien kasvua runkoverkkotasolla. Mahdollisista kuormituspiikeistä pyydämme ilmoittamaan sähköpostitse osoitteeseen [email protected].

Käydessään keräämässä verkkosivustoja Kansalliskirjaston käyttämä hakurobotti tunnistautuu käyttämällä seuraavia http-kenttien arvoja:

User-Agent: Mozilla/5.0 (compatible; heritrix/3.4.0+https://www.kansalliskirjasto.fi/en/legal-deposit-office)
From: [email protected]

Yleensä keräyksissä noudatetaan ns. robots.txt tiedoston sisältöä. Kansalliskirjasto voi kuitenkin päättää kerätä myös robots.txt tiedoston suojaamaa aineistoa jos sitä pidetään toteutettavan keräyksen kannalta merkittävänä.

Kerätyt tiedostot, sekä tiedostojen siirrossa tapahtunut protokollatason tietoliikenne, tallennetaan sellaisenaan WARC-tiedostoformaattiin. Kansalliskirjasto tallentaa nämä arkistotiedostot tietojärjestelmiinsä.

Haravointiin liittyvät kysymykset voi lähettää osoitteeseen: [email protected].