Opetus- ja kulttuuriministeriö 11.12.2012 (päätös)

Kansalliskirjaston tehtävänä on hakea ja tallentaa yleisön saatavilla olevaa verkkoaineistoa tietoverkoista laissa kulttuuriaineistojen tallettamisesta ja säilyttämisestä (1433/2007, jatkossa kulttuuriaineistolaki) edellytetyllä tavalla.

Kulttuuriaineistolain mukaisesti Kansalliskirjaston tulee esittää opetus- ja kulttuuriministeriölle suunnitelma verkkoaineistojen hakemisen ja tallentamisen laajuudesta sekä verkkoaineistojen luovuttamiskäytännöistä. Suunnitelmassa on huomioitava Kansalliskirjaston käytettävissä olevat tekniset ja taloudelliset resurssit, lain tarkoituksenmukaisen tutkimuksen ja kulttuurihistoriallisen arkistoinnin tarpeet samoin kuin verkkojulkaisijoiden tasapuolinen kohtelu. (KulttAinL 9 §)

Verkkoaineistojen tallennuksen aloittaminen (2006–2012)

Kansalliskirjasto aloitti avoimesti yleisön saatavilla olevien verkkoaineistojen tallentamisen vuonna 2006, jolloin tekijänoikeuslainsäädännön (404/1961) uudistuksessa Kansalliskirjastolle annettiin oikeus "valmistaa kokoelmiinsa liitettäväksi kappaleita tietoverkoissa yleisön saataviin saatetuista teoksista" (16 b §). Taulukossa 1 on kuvattu verkkoarkistoon vuosina 2006–2011 tallennettujen aineistojen määrät.

Verkkoaineistojen arkistoinnissa on keskitytty pääsääntöisesti avoimesti yleisön saatavilla oleviin aineistoihin, mutta myös luovutusvelvollisuuden piiriin kuuluvaa aineiston arkistointia on pilotoitu monografioiden ja musiikkiaineistojen osalta. Aineistojen luovuttamisessa on testattu sähköpostia, tallenteita, SFTP-siirtoa ja Kansalliskirjaston tekemiä luovutuslomakkeita.

Kansalliskirjasto tallentaa verkkoaineistoja vuosina 2013-2016 seuraavasti

1. Tietoverkoissa vapaasti yleisön saatavilla olevien aineistojen tallentaminen

Tietoverkoissa vapaasti yleisön saatavilla olevia aineistoja haetaan ja tallennetaan kerran vuodessa toteutettavassa Suomi-keräyksessä ja tarpeen mukaan toteutettavissa teemakeräyksissä. Vuosittain keräyksissä tallennetaan aineistoa noin 9 teratavua.

Suomi-keräyksessä arkistoidaan vuosittain läpileikkaus suomalaisesta verkkojulkaisemisesta. Tallennettua sisältöä ei keräysten laajuuden vuoksi pystytä läpikäymään kokonaisuudessaan. Aineistot indeksoidaan ja ne liitetään osaksi verkkoarkistoa. Verkkoarkistossa aineistoja voi hakea verkko-osoitteella tai avainsana-haulla. Haravoituja aineistoja ei luetteloida kansallisbibliografia Fennicaan

Teemakeräyksissä tallennetaan aineistoja, jotka todennäköisesti jäävät Suomi-keräyksen ulkopuolelle. Tällaisia aineistoja ovat esimerkiksi ulkomaisilla palvelimilla olevat suomalaiset tai suomalaiselle yleisölle tarkoitetut aineistot ja verkossa vain lyhyen aikaa saatavilla olevat aineistot. Teemakeräyksien tehdään seuraavista aihepiireistä:

  1. merkittävät valtiolliset tapahtumat (esim. vaalit ja valtiovierailut)
  2. muut tapahtumat (esim. suuret urheilukilpailut, festivaalit ja konsertit)
  3. odottamattomat maailmanpoliittiset käänteet, luonnonkatastrofit yms. tilanteet
  4. eri alojen asiantuntijoiden kanssa yhteistyössä kartoitetut aiheet

Verkossa avoimesti yleisön saatavilla olevia sanomalehtiä tallennetaan päivittäin.

Kansalliskirjasto kartoittaa pääsääntöisesti itse teemakeräyksissä tallennettavat verkkoaineistot, mutta tarpeen mukaan käytetään esimerkiksi aihepiirin asiantuntijoiden tai mediaseurannoissa koostettuja listauksia.

Verkkoaineiston automaattisen tallentamisen tekniikka on jokseenkin vakiintunutta. Avoimesti yleisön saatavilla olevien verkkoaineistojen keräykset toteutetaan Heritrix-hakuohjelmalla. Se kerää annetuin parametrein automaattisesti materiaalia verkkosivuilta, joiden verkkotunnus on ’.fi’ tai ’.ax’ sekä sellaisilta Suomessa sijaitsevilta palvelimilta, jotka pystytään identifioimaan. Verkkoaineistoja kerätessä hakurobotti tunnistautuu käyttämällä http-kenttien arvoja:

User-Agent: Mozilla/5.0 (compatible; heritrix/1.14.0+http://www.nationallibrary.fi/) From: kk-webcrawler@helsinki.fi

Suomessa sijaitsevia www-sivustoja tunnistetaan käymällä läpi verkon palvelimia ja tarkistamalla jakavatko ne www-sivuja ulkomaailmaan päin (HTTP/portti 80).

2. Luovutettavat verkkoaineistot

Kulttuuriaineistolain mukaisesti Kansalliskirjasto voi pyytää verkkojulkaisijaa joko mahdollistamaan verkkoaineistojen haun ja tallentamisen tai luovuttamaan aineistot Kansalliskirjastolle (8 §). Kulttuuriaineistolakiin liittyvän hallituksen esityksen (HE 68/2007) mukaisesti luovutusvelvollisuuden piirin kuuluvat kaupallisten kustantajien verkkokirjat ja lehdet, sanomalehtien arkistotietokannat, sekä suurten organisaatioiden kuten yliopistojen ja korkeakoulujen ja julkishallinnon verkkojulkaisut. Myös pienten yhteisöjen verkkojulkaisut ja omakustannejulkaisut kuuluvat luovutusvelvollisuuden piiriin. Lisäksi Kansalliskirjaston kokoelmapolitiikassa vuosille 2009–2015 luovutuksina pyydettävän aineiston piiriin on linjattu karttajulkaisut ja vain verkossa julkaistu tai muuten kansalliskokoelmasta puuttuva musiikki (äänitteet ja nuottijulkaisut).

Luovutusvelvollisuuden piiriin kuuluvat aineistot pyydetään Kansalliskirjastoon luovutuksina, koska käytettävissä olevalla tekniikalla mahdollistetut haravoinnit eivät ole onnistuneet kovin hyvin. Luovutusprosessit edellyttävät Kansalliskirjaston ja verkkojulkaisijan yhteistyötä, ja ne pyritään hoitamaan molempien osapuolten kannalta mahdollisimman vaivattomasti. Luovutuskäytäntöjä kehitetään jatkuvasti suomalaisen verkkojulkaisemisen muotoja vastaavaksi.

Aineiston luovutuksen yhteydessä pyritään mahdollisuuksien mukaan saamaan myös siihen liittyvä metadata julkaisualalla käytössä olevilla metadataformaateilla (esim. Dublin Core, ONIX, NewsML, Marc21). Yksittäiset julkaisujen luovuttaminen tapahtuu luovutuslomakkeella, jolla myös metadatan luovuttaminen on mahdollista. Suuret aineistomäärät luovutetaan joko tallenteella, SFTP-tiedonsiirrolla tai massaluovutuslomakkeella. Kansalliskirjasto uusii vuoden 2012 aikana käytössä olevat verkkoaineistojen luovutuslomakkeet. Luovutetut verkkoaineistot luetteloidaan kansallisbibliografia Fennicaan samoin linjauksin kuin painettu aineisto.

Aineistojen ja niihin liittyvän metadatan luovutukset hoidetaan ensisijaisesti verkkokirjakauppojen, verkkomusiikkikauppojen tai välittäjien kanssa, jotka luovuttavat säännöllisesti palvelunsa kautta saatavana olevien kustantajien tai julkaisijoiden verkkoaineistot. Julkaisija tai kustantaja luovuttaa aineiston, jos se toimii myös niiden jakelijana.

Kansalliskirjasto pilotoi yhdessä kahden lehtitalon kanssa sanomalehtien paino-PDF:ien luovuttamista vuoden 2013 loppuun jatkuvassa COMELLUS-hankkeessa. Hankkeessa rakennetaan infrastruktuuria sanomalehtien elektronisten versioiden (ns. paino-PDF) ja niihin liittyvän metadatan luovuttamiseen ja vastaanottamiseen. Tätä infrastruktuuria hyödynnetään jatkossa esimerkiksi sanomalehtien arkistotietokantojen ja muiden jatkuvien julkaisujen luovuttamisessa ja vastaanottamisessa, jotka kuuluvat kulttuuriaineistolain mukaisen luovutusvelvollisuuden piiriin toisin kuin paino-PDF:t.

Arkistoinnin kannalta haasteellisten aineistojen, kuten tietokantojen ja verkkopelien tallennuksessa pyritään seuraamaan alan kansainvälistä kehitystä ja osallistumaan arkistoinnin tiimoilta tehtäviin kansallisiin ja kansainvälisiin yhteistyöprojekteihin.

Tallennettujen verkkoaineistojen evaluointi

Verkkoaineistoja on tallennettu automaattisen verkkokeräyksen avulla seitsemän vuoden ajan ja tallennuksessa käytettävä tekniikka on jokseenkin vakiintunutta. Verkkoarkistoon on vuosien 2006–2012 aikana tallennettu 889 miljoonaa tiedosta, eli on noin 115 teratavua aineistoa.

Tulevan strategiakauden aikana suunnitellaan ja toteutetaan verkkoarkistoinnin evaluointi. Tavoitteena on varmistaa, että aineistojen arkistointi vastaa kulttuuriaineistolain tarkoitusta. Evaluointia tullaan toteuttamaan sekä teknisestä että sisällöllisestä näkökulmasta. Haasteena on evaluointiin sopivien menetelmien kartoittaminen ja niiden soveltaminen suomalaisessa verkkoaineistojen tallennusympäristössä. Automaattisen verkkoaineistojen tallennuksen toteutusta kehitetään tarpeen mukaan evaluoinnin tulosten pohjalta.

Verkkoaineistojen pitkäaikaissäilytys

Kansalliskirjasto huolehtii aineistojen tallentamisesta omilla palvelimillaan ja tallennusvälineillään. Arkistoinnista hyödynnetään myös Helsingin yliopiston tarjoamia konesali- ja muita palveluita. Järjestelmien avulla voidaan varmistaa aineistojen nk. bittitason säilyminen eli tallennetun digitaalisen datan pysyminen tallessa alkuperäisenä ja luettavana.

Kansalliskirjaston tarkoituksena on hyödyntää verkkoaineistojen pitkäaikaissäilytyksessä Kansallisen digitaalisen kirjaston tulevaisuudessa tarjoamia säilytyspalveluita. KDK-palvelut tulevat mahdollistamaan toimenpiteet, joilla estetään esim. tiedostomuotojen käytöstä poistumisen aiheuttamat uhat aineistojen käyttökelpoisuudelle. Kansalliskirjasto ei suunnittele nykyjärjestelmiensä laajentamista tähän suuntaan.

Verkkoarkiston pitkäaikaissäilytys muodostaa haasteen, johon ei kansainvälisestikään ole olemassa lopullista ratkaisumallia. Verkkoarkiston sisältö on hyvin heterogeenistä sekä sisältönsä että teknisten ominaisuuksiensa puolesta. Kukin verkkoarkistossa oleva yksittäinen tiedosto liittyy muihin sisältöihin ja on usein mielekäs säilyttää vain osana tätä kokonaisuutta. KDK:n palveluiden avulla voidaan huolehtia verkkoarkiston bittitason säilyttämisestä. Kansalliskirjasto pitää silmällä verkkoarkiston käytettävyyden säilymiseen kohdistuvia riskejä ja seuraa kysymykseen liittyvää kansainvälistä tutkimusta ja kehitystä. Tällä hetkellä verkkoarkiston valtaosan käyttökelpoisena säilymistä ei uhkaa mikään välitön vaara.

Yhteenveto

Edellisellä strategiakaudella rakennettiin ja testattiin automaattiseen haravointiin ja luovutuksiin liittyvää infrastruktuuria. Tulevan strategiakauden aikana evaluoidaan käytössä olevat tallennusmenetelmät ja niillä arkistoidut sisällöt. Keskeistä on selvittää, saadaanko tutkimuksen ja suomalaisen kulttuurihistorian kannalta olennaiset sisällöt tallennettua. Kansalliskirjaston tarkoitus on perustaa strategiakaudella ”historia-alan neuvottelukunta”, jota voidaan hyödyntää sekä tallennettujen aineistojen evaluoinnissa että tallennettavien aineistojen kartoittamisessa. Jo nyt voidaan arvioida, että verkkoaineistojen kulttuuriaineistolain mukainen tallentaminen edellyttää enemmän resursseja kuin nykyisellään on käytettävissä.

Strategiakauden haasteita ovat uusien julkaisumuotojen tallentaminen, tallennettujen aineistojen käytettävyys ja pitkäaikaissäilytys.