Verkkoaineistojen keräyssuunnitelma 2021–2024

PDF-versio keräyssuunnitelmasta ladattavissa ja luettavissa Doriassa.

Lain kulttuuriaineistojen tallettamisesta ja säilyttämisestä (1433/2007, 9 §) mukainen suunnitelma verkkoaineistojen hakemisen ja tallentamisen laajuudesta sekä verkkoaineistojen luovuttamiskäytännöistä.

Kehittämiskohteet ja painopisteet

  • teknisen osaamisen ja tallennusvälineiden jatkuva kehittäminen verkkojulkaisemisen moninaistuessa
  • luovutusinfrastruktuurin kehittäminen edelleen, kattamaan luovutuksen piiriin kuuluvat aineistot entistä laajemmin
  • yhteistyön lisääminen tutkijoiden ja asiantuntijoiden kanssa verkkoarkistoon tallennettavien sisältöjen kartoittamisessa
  • arkistoitujen aineistojen käyttöönasettamisen ja tutkimuskäytön edistäminen.

1. Aluksi

Kansalliskirjaston tehtävänä on arkistoida kotimainen julkaisutuotanto lain kulttuuriaineistojen tallettamisesta ja säilyttämisestä mukaisesti (laki 1433/2007, jatkossa kulttuuriaineistolaki). Kansalliskirjaston tulee esittää opetus- ja kulttuuriministeriön hyväksyttäväksi suunnitelma verkkoaineistojen hakemisen ja tallentamisen laajuudesta sekä luovuttamiskäytännöistä (kulttuuriaineistolaki 9 §).

Tämä verkkoaineistojen keräyssuunnitelma koskee kautta 2021–2024. Suunnitelmassa on huomioitu tutkimuksen ja kulttuurihistoriallisen arkistoinnin tarpeet sekä verkkojulkaisijoiden tasapuolinen kohtelu kulttuuriaineistolain edellyttämällä tavalla (9 §). Suunnitelmaa voidaan kauden aikana tarvittaessa tarkistaa kotimaisen julkaisutoiminnan tai Kansalliskirjaston käytettävissä olevien teknisten tai taloudellisten resurssien merkittävästi muuttuessa.

Kulttuuriperinnön arkistointia ohjeistaa kulttuuriaineistolain lisäksi Unesco (https://unesdoc.unesco.org/ark:/48223/pf0000244280 - linkki tarkistettu 9.3.2020). Myös kansainvälinen yhteistyö esimerkiksi IIPC:n (International Internet Preservation Consortium) ja muiden verkkoaineistoja arkistoivien tahojen kanssa on yhä tärkeämpää. Verkkojulkaisemisen jatkuva kehittyminen ja kansainvälistyminen edellyttää yhteistyötä sekä tallennettavien aineistojen valinnassa että tallennus- ja säilytystekniikan kehittämisessä ja toteutuksessa.

Myös kaudella 2021–2024 keskeinen kysymys on toimintaa ohjaavan lainsäädännön kehittäminen niin aineistojen tallettamisen ja säilyttämisen kuin tallennettujen aineistojen tutkimuskäytönkin osalta. Digitaalisten aineistojen määrän edelleen nopeasti kasvaessa täytyy huomiota kiinnittää yhä enemmän myös kerättävien aineistojen valintaan ja keräystekniikan kehittämiseen. Aineistojen tutkimuskäyttöä pyritään edistämään entistäkin voimakkaammin.

2. Tallennettavat aineistot ja tallennustavat

Kansalliskirjaston Suomalaiseen verkkoarkistoon tallennetaan pääosin avoimesti verkossa saatavilla olevia sivustoja, mutta myös maksumuurin takana olevia aineistoja, erityisesti uutissisältöjä. Lisäksi tallennetaan sosiaalisen median sisältöjä (kuten Twitter, Facebook, YouTube, Instagram), sekä teemakeräysten yhteydessä että jatkuvana keräyksenä.

Muita verkkojulkaisuja, kuten e-kirjoja, e-musiikkia ja e-lehtiä, tallennetaan useilla eri tavoilla:

  1. säännöllisinä massaluovutuksina suoraan verkkojulkaisijalta tai -välittäjältä Kansalliskirjaston palvelimelle
  2. julkaisija luovuttaa aineiston elektronisten vapaakappaleiden luovutusta varten toteutetun verkkopalvelun, ns. luovutuslomakkeen (http://luovutuslomake.kansalliskirjasto.fi/) kautta
  3. mikäli tarjolla on rajapinta, joka mahdollistaa aineistojen automaattisen tallentamisen, aineistot tallennetaan automaattisesti (esimerkiksi korkeakoulujen ja julkishallinnon julkaisuarkistot)
  4. aineisto voidaan poikkeustapauksissa luovuttaa muulla tarkoituksenmukaisella tavalla, esimerkiksi tallennusmedialle tallennettuna, jos muut tallennustavat eivät ole mahdollisia.

2.1. Verkkosivustojen tallentaminen

Tietoverkoissa yleisön saatavilla olevia aineistoja haetaan ja tallennetaan

  1. vuosittain tehtävässä Suomi-keräyksessä
  2. erityiseen aiheeseen tai tapahtumaan kohdistuvilla teemakeräyksillä
  3. sanomalehtiin, aikakauslehtiin ja uutissivustoihin kohdistuvilla jatkuvasti päivittyvien sisältöjen keräyksillä.
  4. säännöllisillä sosiaalisen median sisältöjen (esim. Twitter) keräyksillä.

Suomi-keräyksessä tallennetaan läpileikkaus suomalaisesta verkkojulkaisemisesta. Tässä vähintään kerran vuodessa tehtävässä keräyksessä kerätään .fi- ja -.ax -päätteisiä sivustoja sekä muiden domainien suomalaisia sivustoja, kielentunnistusta hyödyntämällä.

Teemakeräyksissä tallennetaan Suomi-keräystä laajemmin ja perusteellisemmin ennalta rajattuun aiheeseen tai aineistotyyppiin liittyviä verkkoaineistoja, myös sosiaalisesta mediasta. Teemakeräyksiä tehdään esimerkiksi seuraavista aihepiireistä:

  1. tärkeät kansalliset tai kansainväliset tapahtumat, kuten vaalit tai valtiovierailut
  2. muut merkittävät tapahtumat, kuten erilaiset teemavuodet, kulttuuritapahtumat, urheilutapahtumat
  3. yllättävät kansainväliset tilanteet esim. poliittisesti, yhteiskunnallisesti tai ekologisesti.

Kansalliskirjasto kartoittaa teemakeräyksissä tallennettavia verkkoaineistoja myös yhteistyössä tutkijoiden, muiden asiantuntijoiden ja yleisön kanssa. Kansainvälisiin aiheisiin ja ilmiöihin liittyviä teemakeräyksiä tehdään tarvittaessa yhteistyössä esimerkiksi IIPC:n ja verkkoarkistoinnista eri maissa vastaavien tahojen kanssa.

Jatkuvasti päivittyvien sisältöjen keräyksessä tallennetaan verkossa ilmestyviä mediasisältöjä päivittäin, viikoittain tai kuukausittain riippuen sivustojen päivittymistiheydestä.

Sosiaalisen median säännöllisessä keräyksessä tallennetaan keskeisten yhteiskunnallisten, poliittisten, kulttuuristen, taloudellisten ja muiden sosiaalisessa mediassa laajasti näkyvien toimijoiden avoimesti verkossa saatavana olevia julkaisuja.

Keräys-/tallennustavat

Verkkoaineiston automaattisen tallentamisen tekniikka on muuttunut tallennettavien aineistojen monimuotoisuuden vuoksi yhdestä vakiintuneesta menetelmästä (Heritrix-keruuohjelmisto) useisiin menetelmiin, joiden sovittaminen ja kehittäminen vaatii jatkuvaa työtä. Esimerkiksi maksumuurien takana olevien verkkosivujen ja sosiaalisen median aineistojen kerääminen ei välttämättä onnistu Heritrix-ohjelmistolla. Näiden aineistojen keräämiseksi on jo otettu käyttöön ja jatkuvasti kehitetään avoimen koodin ohjelmistoja, joita käytetään sivustoille tunnistautumiseen ja aineistojen tallentamiseen joko suoraan tai palveluiden tarjoamien rajapintojen avulla. Uudentyyppinen aineisto vaatii uusia käsittelyratkaisuja aineistojen pitkäaikaissäilyvyyden takaamiseksi. Kansalliskirjasto osallistuu kansainväliseen yhteistyöhön tallennusvälineiden kehittämisessä.

2.2. Muiden digitaalisten julkaisujen tallentaminen

Verkkoaineistoja, joita ei voida kerätä automaattisesti, pyydetään luovutuksina Kansalliskirjastoon (kulttuuriaineistolaki 8 §, HE 68/2007). Tällaisia julkaisuja ovat tyypillisesti esimerkiksi

  1. e-kirjat ja -lehdet sekä lehtiarkistot,
  2. verkkomusiikki ja -pelit ja
  3. korkeakoulujen, julkishallinnon, kansalaisjärjestöjen ja muiden organisaatioiden verkkojulkaisut.

Verkkojulkaisemisen kehityksen mukanaan tuomat uudet julkaisumuodot kuuluvat myös luovutuspyyntöjen kautta saataviin aineistoihin, mikäli niitä ei pystytä tallentamaan automaattisesti.

Luovutuspyyntöjen kautta saatavista julkaisuista pyydetään luovuttamaan myös niihin liittyvä metadata (kulttuuriaineistolaki 20 §), ensisijaisesti julkaisualalla käytössä olevissa metadataformaateissa (esim. Dublin Core, ONIX, NewsML, MARC 21). Luovutettu metadata konvertoidaan tarvittaessa Kansalliskirjastossa kirjaston käyttämiin metadataformaatteihin. Verkkolomakkeella luovutettavien julkaisujen osalta luovutusvelvollinen syöttää kuvailutiedot lomakkeelle, minkä jälkeen niitä voidaan suoraan hyödyntää aineistojen bibliografisessa kuvailussa ja sisällönkuvailussa.

Kansalliskirjaston ylläpitämissä julkaisuarkistoissa olevista julkaisuista tallennetaan vapaakappaleet suoraan kyseisistä julkaisuarkistoista. Julkaisuarkistoissa on julkishallinnon, yliopistojen ja ammattikorkeakoulujen julkaisuja. Samalla tavalla tallennetaan myös muita julkaisuarkistoja ja muita avoimien rajapintojen kautta saatavilla olevia aineistoja, kuten tieteellisiä verkkolehtiä. Näin mm. julkaisuarkistoissa olevat julkaisut saadaan osaksi kansalliskokoelmaa ja niissä olevaa metadataa voidaan konversioiden kautta hyödyntää aineistojen kuvailussa kansallisbibliografiaan ja muihin kirjastotietokantoihin. Näin toiminta palvelee verkkojulkaisujen tallentamisen ja pitkäaikaissäilytyksen lisäksi myös avoimen tieteen saatavuutta.

Luovutusvelvollisuuden piiriin kuuluvia aineistoja pyydetään Kansalliskirjastoon luovutuksina silloin kun mahdollistettu haravointi ei käytettävissä olevalla tekniikalla ole toteutettavissa. Luovutusprosessit edellyttävät Kansalliskirjaston ja verkkojulkaisijoiden yhteistyötä, ja ne toteutetaan molempien osapuolten kannalta mahdollisimman vaivattomasti. Luovutuskäytäntöjä ja ‑infrastruktuuria yhdenmukaistetaan ja uudistetaan kattamaan luovutusvelvollisuuden piiriin kuuluvat aineistot entistä paremmin. Kansalliskirjasto ohjeistaa ja neuvoo luovutusvelvollisia verkkoaineistojen luovutukseen liittyvissä asioissa.

Aineistojen ja niihin liittyvän metadatan luovutukset hoidetaan ensisijaisesti verkkokirjakauppojen, verkkomusiikkikauppojen tai välittäjien kanssa, jotka luovuttavat säännöllisesti palvelunsa kautta saatavana olevien kustantajien tai julkaisijoiden verkkojulkaisut. Julkaisija tai kustantaja luovuttaa aineiston jos sitä ei ole saatavissa muuta kautta. Julkaisuarkistopalvelujen ulkopuolella olevat julkishallinnon toimijat luovuttavat Kansalliskirjaston pyynnöstä itse aineistonsa.

Luovutettavat aineistot tulee ensisijaisesti toimittaa kansallisessa pitkäaikaissäilytyspalvelussa määritellyissä aineistotyyppikohtaisissa säilytys- tai siirtokelpoisissa tiedostomuodoissa (http://digitalpreservation.fi/specifications - linkki tarkistettu 9.3.2020). Aineistotyyppi määräytyy aineiston pääasiallisen sisällön mukaan.

Tallentamisen kannalta erityisen ongelmallisten verkkoaineistojen, kuten tietokantojen, verkko-opetusmateriaalien, verkkopelien ja karttojen tallennuksessa pyritään seuraamaan kansainvälistä kehitystä ja mahdollisuuksien mukaan osallistumaan alan kansallisiin ja kansainvälisiin yhteistyöprojekteihin.

3. Verkkoaineistojen käyttö ja pitkäaikaissäilytys

Kansalliskirjasto huolehtii aineistojen tallentamisesta ja tallennetun aineiston toimittamisesta pitkäaikaissäilytykseen. Tallennetut aineistot ovat käytettävissä Kansalliskirjaston ylläpitämillä vapaakappaletyöasemilla tekijänoikeuslain (404/1961, 16 b §) mukaisesti.

Tallennettujen verkkoaineistojen siirtäminen kansalliseen pitkäaikaissäilytyspalveluun (http://digitalpreservation.fi) on käynnissä verkkoarkiston osalta, muiden aineistojen kattava pitkäaikaissäilytys aloitetaan tällä suunnitelmakaudella. Aineistojen siirto pitkäaikaissäilytykseen automatisoidaan niin suurelta osin kuin mahdollista. Pitkäaikaissäilytyksen lisäksi Kansalliskirjastolla on velvoite säilyttää ja tarjota käyttökopiot kaikista tallennetuista aineistoista.

4. Lopuksi

Verkkojulkaisemisen monimuotoistuminen ja jatkuva kasvu tuo jatkuvasti uusia haasteita kulttuuriaineistolain mukaiselle verkkojulkaisujen tallentamiselle ja säilyttämiselle. Julkaisutavat, käytettävät formaatit ja teknologia kehittyvät ja muuttuvat alinomaa. Osa tekniikoista jää lyhytikäisiksi, toisista muodostuu lopulta vakiintuneita käytäntöjä. Verkkojulkaisujen kerääminen ja säilyttäminen edellyttääkin jatkuvaa yhteistyötä julkaisualan toimijoiden ja muiden verkkoarkistointia tekevien kotimaisten ja kansainvälisten tahojen kanssa sekä henkilöstön osaamisen jatkuvaa kehittämistä.

Yhteistyö tutkijoiden ja muiden asiantuntijoiden kanssa korostuu verkkoaineistoja tallennettaessa niin tallennettavien aineistojen kartoittamisessa kuin verkkoaineistojen tutkimuskäytön edistämisessäkin.

Nykyinen verkkoaineistojen tallettamista ja säilyttämistä ohjaava laki tuli voimaan 1.1.2008. Koko julkaisuala on tuon jälkeen kokenut voimakkaan muutoksen kohti digitaalisuutta, eikä nykyinen lainsäädäntö enää kaikilta osin vastaa kulttuuriperinnön säilyttämisen tarpeisiin digitaalisen julkaisutuotannon osalta. Digitaalisten tutkimusmenetelmien yleistyminen on tuonut tarpeen myös tallennettujen verkkoaineistojen käyttöä ohjaavien säädösten uudistamiselle, tähän liittyy osaltaan myös Euroopan unionin direktiivin tekijänoikeudesta ja lähioikeuksista digitaalisilla sisämarkkinoilla (ns. DSM-direktiivi, (EU) 2019/790) implementointi kansalliseen lainsäädäntöön.