Skip to main content

Scripta Selecta

Kirjoituksia Kansalliskirjaston kokoelmista

Miten Kansalliskirjaston elektroniset kokoelmat säilytetään?

Date published
Author
Jukka-Pekka Rajakangas

Kansalliskirjaston elektroniset kokoelmat kasvavat nopeasti. Perinteisten kokoelmien takautuva digitointi ja elektronisten aineistojen Kulttuuriaineistolakiin perustuva keruu ovat keskeiset syyt tähän asiakkaiden kannalta positiiviseen kehitykseen, jonka ansiosta esimerkiksi vanhojen sanomalehtien käytettävyys on oleellisesti parantunut.

Aukeama teoksesta Iconaes novae. Kuvat kasveista Pulmonaria ja Anifum

Aukeama kirjasta Til-Landz, Elias Erici. Icones novae. [B]. Aboae : [Johan Larsson Wall], 1683.
Saatavissa: http://urn.fi/URN:NBN:fi-fe201803125930

Elektroniset aineistot ratkaisevat monia ongelmia, mutta luovat myös joukon uusia. Laadukkaalle paperille painetut julkaisut säilyvät hyvissä oloissa satoja vuosia, mutta tiedostot voivat muuttua käyttökelvottomaksi muutamassa vuodessa. Elektronisten aineistojen pitkäaikaissäilyttäminen on iso haaste, jota ei ole vielä missään täysin ratkaistu. Tämä blogikirjoitus kertoo, mitä elektronisten aineistojen pitkäaikaissäilytyksellä tarkoitetaan, ja miten se on tarkoitus Suomessa hoitaa Tieteen tietotekniikan keskus CSC:n (https://www.csc.fi/) ylläpitämän pitkäaikaissäilytys- eli PAS-palvelun ja sitä hyödyntävien organisaatioiden kuten Kansalliskirjaston yhteistyönä.

Aukeama teoksesta Iconaes novae. Kuvat kasveista Pulmonaria ja Anifum

Bittien ja ymmärrettävyyden säilyttäminen

Riippumatta siitä miten elektronisten aineistojen käyttö aiotaan hoitaa, tiedostojen (bittien) säilyttäminen on välttämätöntä. Jos tiedosto katoaa tai korruptoituu, peli on menetetty. Kaikeksi onneksi bittien säilytyksen vaatimukset tiedetään hyvin (ks. luku tallennus).

Pelkkä bittien säilyttäminen ei kuitenkaan vielä takaa pitkäaikaissäilytyksen varsinaista tavoitetta eli sitä, että aineistot säilyisivät ymmärrettävinä. Ymmärrettävyys voidaan tulkita kahdella tavalla, teknisesti ja aineiston käyttäjien (kohdeyhteisön) kannalta. Yleensä nämä kaksi näkökulmaa sulautetaan yhteen, mikä helpottaa pitkäaikaissäilytyksen haasteellisuutta.

Teknisesti tiedosto on ymmärrettävissä, jos tarjolla on laitteistoympäristö, sovellus ja teknistä metatietoa, jonka avulla haluttu tiedosto voidaan avata. Metatieto tarkoittaa tässä tietoa tiedostomuodosta (-formaatista) sekä ohjelmistoista, joiden avulla tiedosto on luettavissa ja mahdollisesti myös muokattavissa. Jos teknistä metatietoa ei ole, voidaan tarvita digitaalista arkeologiaa tiedostomuodon ja tarvittavien sovellusten selvittämiseksi.

Oletetaan että levykkeeltä löytynyt arvoituksellinen tiedosto on lähemmin tarkasteltuna osoittautunut Teko-ohjelmistolla laadituksi. Valtion tietokonekeskuksen Teko-tekstinkäsittelyohjelmisto oli 80-luvulla julkishallinnon de facto –standardi. Ohjelmisto toimi MS-DOS-käyttöjärjestelmässä ja katosi markkinoilta, muun muassa koska Windows-version kehittäminen epäonnistui. Sovellusta käytettiin kuitenkin valtionhallinnossa vielä 2000-luvullakin (ks. https://fi.wikipedia.org/wiki/Teko) eikä olisi ihme, jos arkistojen kätköistä löytyisi vieläkin säilyttämisen arvoisia Teko-tiedostoja.

Kansalliskirjastolla lienee vielä nytkin asiakkaita, joille MS-DOS-käyttöjärjestelmä ja Teko-sovellus ovat tuttuja vuosien takaa. Heille kynnys alkuperäisten TEKO-tekstien käyttöön ei välttämättä olisi ylivoimainen. Myös asiakkaat, jotka haluavat nähdä elektronisen aineiston niin autenttisena kuin mahdollista, voivat olla valmiita vanhojen sovellusten opiskeluun. Mutta muille asiakkaille parempi ratkaisu on pitkäaikaissäilytettävien Teko-tekstien muuntaminen modernimpaan muotoon, kuten Word-tiedostoiksi.

Uudessa tiedostomuodossa tekstien ulkoasu ja osin sisältökin voivat muuttua, mutta modernien tiedostojen käytettävyys on oleellisesti parempi kuin alkuperäisten.

PAS-palvelussa pitkäaikaissäilytys taataan ensisijaisesti migraation eli tiedostojen muuntamisen avulla. Pitkäaikaissäilytystä varten hyödyntävän organisaation on muunnettava PAS-palveluun siirrettävät tiedostot yhteisesti hyväksyttyyn säilytyskelpoiseen muotoon, kuten PDF/A:ksi. Hyödyntävä organisaatio saa siirtää palveluun muutakin aineistoa kuten Teko-tekstejä, mutta vain bitteinä säilytettäväksi.

Jos tiedoston migraatio ei ole mahdollista, säilytysmenetelmä on alkuperäisen käyttöympäristön jäljittely eli emulaatio. Sitä sovelletaan esimerkiksi peleihin ja muihin ohjelmistoihin. Emulaation etu on PAS-järjestelmään tallennettujen aineistojen alkuperäisen sisällön ja ulkoasun säilyminen. Mutta vanhojen sovellusten opettelu voi olla monelle ylivoimainen vaatimus, ja mitä vanhempia tarvittavat sovellukset ovat, sitä hankalampaa alkuperäisten aineistojen käytöstä tulee.

Kun migraatio on tehty, on päätettävä, säilytetäänkö alkuperäinen tiedosto. Ellei levytilan puute sanele muuta ratkaisua, on järkevää säilyttää kaikki aineistosukupolvet. Silloin autenttisuutta arvostaville asiakkaille voidaan edelleen tarjota alkuperäisen aineiston käyttömahdollisuus, ja seuraavakin migraatio voidaan tehdä alkuperäisistä tiedostoista, jos siihen on käytettävissä välineet.

Kohdeyhteisöt

Käyttäjien ymmärrettävyyden näkökulmasta pitkäaikaissäilytys nojautuu kohdeyhteisön käsitteeseen. Keille säilytettävä aineisto on tärkeä, ja missä muodossa he haluavat sitä käyttää? CSC:n PAS-palvelun ylläpitäjät eivät voi tätä tietää, ja siksi jokainen PAS-palvelua hyödyntävä organisaatio kuten Kansalliskirjasto vastaa omien kohdeyhteisöjensä ja niiden muuttuvien tarpeiden seurannasta.

Yksi pitkäaikaissäilytyksen suurista haasteista on se, että aikojen saatossa kohdeyhteisö ja sen preferenssit vaihtelevat. Tältä osin pitkäaikaissäilytys ja kokoelmapolitiikka lyövät kättä: jos painetun aineiston käyttö vähenee tai loppuu, sitä voidaan karsia esimerkiksi lähettämällä aineistoa Varastokirjastoon. PAS-palvelussa olevien elektronisten julkaisujen poistoa tuskin joudutaan harkitsemaan, mutta säilytyksen ambitiotasoa voidaan laskea, jos kustannuksia on pakko säästää. Tämä voi tarkoittaa joko migraation automatisointiasteen nostoa (vähemmän muunnettujen tiedostojen manuaalisia tarkistuksia) tai migraatioiden tekemättä jättämistä. Pitkälle viedyt säästötoimet voivat johtaa digitaaliseen arkeologiaan, jonka aiheuttamat kustannukset saattavat ennen pitkää ylittää migraation moninkertaisesti, jos aineiston käyttö yllättäen lisääntyy.

Jos jokin elektroninen kokoelma on aktiivikäytössä, kohdeyhteisön muutokset voivat edellyttää säilytystoimenpiteitä jo ennen kuin aineisto vanhenee teknisesti. Tutkimusaineistot ovat hyvä esimerkki tästä. Jonkin aineiston kohdeyhteisö voi kasvaa, jolloin sen käytettävyys voi kaivata parannusta. Vastaavasti kohdeyhteisön ja/tai sen tutkimusparadigman muutokset voivat edellyttää tutkimusaineiston uudelleenorganisoimista uuden tutkimusotteen edellyttämällä tavalla. PAS-palvelu ei pysty näitä muutoksia tekemään, vaan ne ovat tutkijayhteisön vastuulla.

Perinteisiin julkaisuihin kohdistuu vähemmän muutospaineita, mutta niidenkin ymmärrettävyyden säilyttäminen voi aikaa myöden edellyttää asiantuntija-apua. Esimerkiksi Daniel Jusleniuksen kuulu Vindicias Fennorum eli Suomalaisten puolustus vuodelta 1703 on koko nykyisen kohdeyhteisönsä (Suomen historian tutkijat ja harrastajat) ymmärrettävissä vain siksi että SKS on julkaissut 1994 latinankielisestä alkuperäisteoksesta Juhani Sarsilan suomennoksen, johon sisältyy käännöksen lisäksi laaja selitysosa.

Vindicias Fennorum on, kuten kaikki muutkin Kansalliskirjaston kokoelmissa olevat noin 4430 Turun Akatemian väitöskirjaa, digitoitu ja vapaasti käytettävissä. Suurelle osalle kirjaston käyttäjistä väitöskirjojen kieli, latina, on merkittävä este. Kohdeyhteisön on muuttunut: kun väitöskirjat kirjoitettiin, latina oli tieteen kieli. Nykyistä kohderyhmää ajatellen osa väitöskirjoista jotka ovat edelleen kiinnostavia (kuten pitäjänhistoriat ja kansatieteelliset tutkimukset) on osin suomennettu, mutta käännökset eivät ole tekijänoikeuksista vapaita eikä niitä digitoitu yhdessä alkuperäistekstien kanssa.

Kun elektroniset aineistot ovat uusia, ymmärrettävyyden säilyttämiseen riittää migraatio, eikä dokumenttien sisältöön tarvitse puuttua. Pitkäaikaissäilytys keskittyykin käytännössä ymmärrettävyyden tekniseen säilyttämiseen. Mutta mitä pidempään aikaa kuluu, sitä haasteellisempaa ymmärrettävyyden säilyttämisestä tulee kohdeyhteisöjen eli käyttäjien kannalta. Kieli ja maailma muuttuvat, ja tämä ongelma on riippumaton siitä, onko pitkäaikaissäilytettävä aineisto painettua vai digitaalista.

Aleksis Kiven teosten työn alla oleva kriittinen editio avaa ne tämän vuosisadan lukijoille. 200 vuoden päästä tarvitaan ehkä uusi kriittinen editio edellisen vanhennuttua. Mutta näin syvälle käypä käyttäjien tarpeista lähtevä ymmärrettävyyden säilyttäminen voi olla PAS-järjestelmän tai muiden tietojärjestelmien vastuulla vain siltä osin kuin ymmärrettävyyden takaaminen on ohjelmallisesti toteutettavissa. Kun Norjan kansalliskirjaston edellinen johtaja sanoi että kirjasto digitoi koko kansallisen kulttuuriperinnön ja takaa digitaalisen informaation säilyvän käytettävissä ainakin 500 vuotta, hän tarkoitti vain teknisen ymmärrettävyyden säilyttämistä. Ei ole mahdollista taata, että nyt julkaistavat tutkimukset tai kaunokirjallisuus ovat täysin ymmärrettävissä vielä satojen vuosien päästä, ellei niiden sisältöä uudelleentulkita tulevia lukijoita varten.  Tämä tulkinta ei ole PAS-palvelun eikä edes sitä hyödyntävien organisaatioiden vaan säilytettävien aineistojen kohdeyhteisöjen vastuulla.

Aukeama teoksesta Iconaes novae, kasvikuvat Filix ja Polypodium.

PAS-järjestelmän toiminta

Pitkäaikaissäilytys on prosessi, joka alkaa aineiston luonnista ja päättyy joko tietosisällön tuhoutumiseen tai sen ymmärrettävyyden katoamiseen. Ratkaisevia päätöksiä voidaan tehdä jo aivan alussa: kirjan painaminen happamalle paperille rajaa alkuperäisen dokumentin elinkaaren melko lyhyeksi. Toki jokaisen elektronisen julkaisun alkuperäisen version elinkaari on vielä tätäkin lyhyempi. PAS-palvelun tavoitteena on varmistaa, että kulttuuriorganisaatioiden vastuulla olevat elektroniset tietosisällöt voidaan säilyttää tuleville sukupolville mahdollisimman tehokkaasti.

PAS-palvelun rahoittaa OKM ja tekniikasta vastaa CSC, mutta hyödyntävät organisaatiot päättävät, mitä aineistoja palveluun tallennetaan. Monilla meistä on oma, lakisääteinen vastuualue, jonka rajoissa neuvottelemme OKM:n kanssa sopimukset tallennettavista aineistoista ja niiden määristä.

Kansalliskirjaston ja Kansallisen audiovisuaalisen instituutin (KAVI) vastuut perustuvat Kulttuuriaineistolakiin. Toisin kuin esimerkiksi Kansallisarkisto, emme pysty ohjaamaan säilytettävien tietosisältöjen tuotantoa lainsäädännön avulla. Siksi Kansalliskirjasto voi saada vastuulleen myös ”haasteellista” aineistoa kuten interaktiivisia e-kirjoja. Kokonaisuuden kannalta isompi haaste on kuitenkin prosessissa olevat puutteet kuten se, ettei julkaisemisen yhteydessä tarkisteta tiedoston validiteettia. Sisällöntuottajien, Kansalliskirjaston ja PAS-palvelun välinen yhteistyö on tehokas keino lievittää näitä ongelmia.

NDSA pitkäaikaissäilyttämisen tasot

PAS-palvelu on tähän asti keskittynyt bittien säilyttämiseen, mutta ymmärrettävyyden säilyttämiseen tähtäävä kehitystyö aloitettiin vuoden 2020 lopulla. Samalla päätettiin määritellä entistä tarkemmin eri osapuolten vastuut. Tätä helpottaa NDSA:n (National Digital Stewardship Alliance) kehittämä matriisi, jossa on kuvattu keskeiset pitkäaikaissäilytykseen liittyvät tehtävät.  Se on CSC:n aloitteesta käännetty; suomennos julkaistiin tammikuussa 2021 (ks. URN:NBN:fi-fe202101101409).

Matriisissa PAS-palvelu on jaettu viiteen toiminnalliseen alueeseen ja neljään tasoon. Toiminnalliset alueet ovat: Tallennus, Eheys, Valvonta, Metatieto ja Aineisto. Matriisin taso 1 kuvaa vähimmäisvaatimuksia ja taso 4 parasta toiminnan tasoa. Esimerkiksi Tallennusalueen tasolla 1 “Pidä kahta täydellistä kopiota erillisissä sijainneissa” muuttuu tasolla 4 vaatimukseksi “Pidä ainakin kolmea kopiota eri maantieteellisissä sijainneissa, joissa onnettomuusriskit ovat keskenään erilaiset”.

Matriisin kehittäjien oletus on, että sama organisaatio vastaa kaikesta toiminnasta. Suomessa vastuut jakautuvat PAS-palvelulle ja palvelua hyödyntäville organisaatioille. Siksi meidän oli ratkaistava, kuka mistäkin vastaa. Päädyttiin siihen, että Tallennus-alueeseen liittyvät tehtävät kuuluvat täysin PAS-palvelun vastuulle. Muilla osa-alueilla vastuu jakautuu PAS-palvelun ja hyödyntävien organisaatioiden kesken. Joidenkin osatehtävien vastuu on hyödyntävällä organisaatiolla; esimerkkejä tästä ovat puuttuvan eheystiedon luominen sekä suhteiden luominen sisällöntuottajiin.

Matriisista on hyötyä kaikille pitkäaikaissäilytyksestä kiinnostuneille tahoille. Sisällöntuottajat voivat hahmottaa PAS-toiminnan kokonaisuuden ja omat vastuunsa prosessissa, joka alkaa aineistojen luonnista. PAS-palvelua hyödyntävät organisaatiot pystyvät matriisin avulla hahmottamaan omat vastuunsa, seuraamaan omaa PAS-valmiustasoaan ja suunnittelemaan tarvittavia toimenpiteitä valmiustason nostamiseksi. Ja PAS-palvelu voi kehittää järjestelmää ja prosessejaan niin, että matriisin tavoitteet täyttyvät. Eikä tekninen järjestelmä, vaikka se olisi miten hyvä, vielä riitä: tarvitaan myös koulutusta, jotta kaikki prosessiin liittyvät toimijat ymmärtäisivät omat vastuunsa ja tietäisivät, miten toimia.

NDSA-matriisin toiminnalliset alueet

TALLENNUS

Tallennusalueen vaatimuksilla pyritään varmistamaan bittien turvattu säilyvyys satojen vuosien ajan ja ennalta ehkäisemään mahdollisia riskitekijöitä. Vähimmäisvaatimus on kahden täydellisen kopion säilyttäminen erillisissä sijainneissa, joka jo suojaa melko hyvin esim. vesivahingoilta, tulipaloilta ja muilta vastaavilta yllättäviltä tapahtumilta.

Ajan saatossa säilytettyihin aineistoihin voi iskeä bittimätä, eli tiedostoissa muuttuu jokunen nolla ykköseksi tai päinvastoin. Yksikin muutos voi heikentää aineiston käytettävyyttä tai tuhota sen kokonaan. Tallennusmediasta riippuen bittimätään on monia syitä median tuhoutumisesta kosmiseen säteilyyn (ks. https://en.wikipedia.org/wiki/Data_degradation). Mitä suurempia määriä dataa tallennetaan, sitä todennäköisempää on, että bittimätää ilmenee. Siksi suurissa järjestelmissä on pakko suojautua sitä vastaan.

Hyvä tapa estää bittimätä on NDSA-matriisin vaatimus “Pidä ainakin kolmea kopiota eri maantieteellisissä sijainneissa, joissa onnettomuusriskit ovat keskenään erilaiset”. Tällöin tiedostoja voidaan vertailla keskenään. Jos yksi kopio korruptoituu, vertailu kahta ehjää tiedostoa vasten paljastaa ongelman ja mahdollistaa vikaantuneen tiedoston korjaamisen. Tallentaminen eri sijaintipaikkoihin ja erilaisiin teknisiin tallennusjärjestelmiin suojaa bitit myös tulipalojen kaltaisilta onnettomuuksilta sekä yksittäisen tallennusjärjestelmätoimittajan katastrofaalisilta virheiltä.

PAS-palvelussa bitit ovat hyvässä tallessa: jokaisesta tiedostosta on viisi kopiota, joista yksi on ns. pimeässä arkistossa eli irrallaan tietoverkoista. Tallennusratkaisu on myös maantieteellisesti hajautettu ja siinä sovelletaan eri järjestelmätoimittajia. Vastaavan ratkaisun toteuttaminen paikallisesti esimerkiksi jokaisessa korkeakoulussa olisi tullut erittäin kalliiksi, joten PAS-järjestelmän keskittäminen oli edullinen ratkaisu, jonka avulla saatiin korkea tietoturvan taso.

EHEYS

Eheystiedolla tarkoitetaan sitä, että aineiston mukana toimitetaan tarkistussumma (checksum), joka saadaan tiedostoista tietyllä algoritmilla laskemalla. Tämän tiedon perusteella voidaan varmistua esim. elektronisena vapaakappaleena vastaanotetun aineiston eheydestä. Saapuneesta tiedostosta lasketaan tarkistussumma ja varmistetaan, että se on sama kuin ennen lähetystä. Mikäli summa on muuttunut, aineisto on korruptoitunut siirron aikana ja se pitää lähettää uudestaan.

Eheyttä ei voida taata, ellei Kansalliskirjastoon saapuville aineistoille ole laskettu tarkistussummia. Tällöin on olemassa riksi, että saamamme aineisto ei ole kunnossa, ja pitkäaikaissäilytys on epäonnistunut jo ennen alkamistaan. PAS-palvelu edellyttää, että saapuville aineistoille on luotu tarkistussummat, mutta saatava hyöty on rajallinen, jos niitä ei luoda riittävän varhaisessa vaiheessa.

Lisäksi kaikki PAS-palveluun siirrettävät aineistot tulee virustarkastaa ja tarvittaessa virukset on poistettava. Lisäksi aineisto tulee olla kirjoitussuojattu kun käytetään alkuperäistä tallennusalustaa. Nämä toimenpiteet ovat joko täysin hyödyntävän organisaation vastuulla tai yhteisesti PAS-palvelun kesken.

PAS-palvelun vastuulla olevia NDSA-vaatimuksia ovat pitkäaikaissäilytettävien aineistojen eheyden tarkastaminen säännöllisin väliajoin, eheystarkastusten prosessien ja tulosten dokumentointi sekä tarkistusten yhteydessä löydettyjen korruptoituneiden tiedostojen korvaaminen eheillä. Aineiston eheys tulee myös tarkastaa aina erityisten tapahtumien tai toimenpiteiden jälkeen. Näitä tapahtumia voivat olla esimerkiksi levyjärjestelmän kaatuminen sähkökatkon tms. syyn vuoksi tai uuden levyjärjestelmän käyttöönotto.

VALVONTA

Valvonta-alueen tehtäviin kuuluu PAS-palveluun tallennettuihin aineistoihin liittyvien oikeuksien määritteleminen sekä niiden toimijoiden (henkilöt ja sovellukset) määrittely ja dokumentointi, joilla tulisi olla oikeus lukea, kirjoittaa, siirtää ja poistaa aineistoa. Näitä henkilöitä voi olla myös hyödyntävissä organisaatioissa.

PAS-palvelun vastuulla on ylläpitää ja katselmoida pääsy- ja toimenpidelokeja säännöllisin väliajoin, yksilöiden henkilöt ja ohjelmistot, jotka ovat tehneet toimenpiteitä aineistolle. Dokumentoitavista toimenpiteistä sovitaan erikseen ja niiden kuvaukset tallennetaan pitkäaikaissäilytyksen metatietona PREMIS-formaatissa. Ajantasainen toimenpidelista löytyy osoitteesta http://www.digitalpreservation.fi/specifications/vocabularies.

METATIETO

Metatietoalueen vaatimuksia ovat inventaarion tekeminen tallennetuista aineistoista, mukaan lukien nykyiset tallennuspaikat. Inventaariotieto tulee varmuuskopioida ja siitä pitää olla ainakin yksi kopio tallennettuna eri paikassa kuin aineisto. Metatietoa tulee tallentaa riittävästi, jotta tallennetut aineistot voidaan paikallistaa ja noutaa järjestelmästä. Metatieto voi olla kuvailevaa, rakenteista tai hallinnollista; hallinnollinen metatieto jakautuu tekniseen, käyttöoikeuksia koskevaan ja pitkäaikaissäilytyksen metatietoon. Tekninen metatieto kuvaa tiedostojen tekniset ominaisuudet tarkemmin kuin kuvaileva metatieto. Käyttöoikeudet koskevat sitä, mitä kukin toimija saa PAS-palvelussa oleville tiedostoille tehdä, ja pitkäaikaissäilytyksen metatieto kuvaa aineistoon kohdistuneet tapahtumat.

PAS-hanke on määritellyt käytettävät metatietostandardit ja pakolliset metatietoelementit. Ennen aineistojen siirtämistä PAS-palveluun metatietojen mahdolliset puutteet tulee täydentää, jotta lähetetyt paketit läpäisisivät PAS-palvelun sisääntulotarkistuksen. Kaikilla aineistoilla pitää olla esim. standarditunniste, joka mahdollistaa aineiston haun PAS-palvelusta.

PAS-palvelun vastuulla on pitkäaikaissäilytyksen metadata, eli aineistoon liittyvien säilytystoimenpiteiden kirjaaminen aikatietoineen, eli kuka teki, mitä ja milloin, ja mitä toimenpiteestä seurasi. Toimenpide voi olla esimerkiksi PDF/A-tiedoston migraatio johonkin toiseen tiedostomuotoon, jolloin PAS-palvelu tai muu migraatiosta vastaava taho kirjaa toimenpiteen ajankohdan, toimijat (ohjelmisto ja vastuuhenkilö) sekä tulokset (mitä muutoksia tiedoston ulkoasuun ja sisältöön tuli) siltä osin kuin mahdollista.

AINEISTO

Kun aineistoa paketoidaan PAS-palveluun lähetettäväksi, sen tiedostojen tiedostomuodot pitää dokumentoida. Ei riitä, että ilmoitetaan väitöskirjan olevan PDF/A-formaatissa; on varmistettava ohjelmallisesti, että tiedostomuoto on oikeasti PDF/A ja itse tiedosto on virheetön.  Tähän tarkistukseen käytetään veraPDF-sovellusta (https://verapdf.org/); muilla tiedostoformaateilla on vastaavia sovelluksia. Sekä PAS-palvelun että sitä hyödyntävien organisaatioiden on tehtävä nämä tarkistukset, koska vain tällä tavoin voidaan varmista aineistojen tekninen säilytyskelpoisuus. On tärkeää että pitkäaikaissäilytettävät aineistot, kuten väitöskirjat, tarkistetaan ensimmäisen kerran jo ennen niiden julkaisemista, koska tiedostojen korjaaminen jälkikäteen ilman väittelijän suostumusta voi olla juridisesti mahdotonta ja teknisesti vaikeaa.

Jokainen tiedostomuoto vanhenee ennen pitkää ja tiedostot pitää modernisoida migraation avulla, jotta niiden käytettävyys voidaan taata. PAS-palvelu seuraa teknologian kehitystä ja ilmoittaa hyödyntäville organisaatioille muunnostarpeesta. Jo ennen tiedostomuodon teknistä vanhenemista kohdeyhteisön preferenssien muuttuminen tai muut syyt, kuten modernimman tiedostomuodon vähentynyt levytilan tarve, voivat tehdä migraation järkeväksi tai jopa välttämättömäksi. Tästäkin syystä migraatioiden ajoituksessa kuskin pukilla ovat PAS-palvelua hyödyntävät organisaatiot, ilman niiden lupaa prosessi ei käynnisty. Valtamme ei kuitenkaan ole rajaton: PAS-palvelu ei toteuta migraatiota, ellei siihen ole teknisiä edellytyksiä. Siksi esim. uuteen liikkuvan kuvan tiedostomuotoon, jonka väitetään tarvitsevan 50 % vähemmän levytilaa kuin edeltäjänsä, ei voida siirtyä heti kun se on periaatteessa mahdollista. Käytettävien ohjelmistojen tulee olla riittävän luotettavia ja itse migraation hyvin testattu.

PAS-palvelua hyödyntävän organisaation vastuulla on luoda suhteet sisällöntuottajiin kuten korkeakouluihin sekä kohdeyhteisöön eli asiakkaisiin. Ellei tiedostomuodon valintaa ohjata lainsäädäntöteitse (kuten väitöskirjojen ja opinnäytteiden kohdalla on asian laita) on tärkeää kannustaa kustantajia julkaisemaan aineistot myös pitkäaikaissäilytettävässä muodossa, tai ainakin toimittamaan ne Kansalliskirjastolle pitkäaikaissäilytettävässä muodossa, kuten PDF/A-tiedostomuodossa. Ellei julkaisija tätä tee, vastuu migraatiosta siirtyy Kansalliskirjastolle tai PAS-palvelulle. PDF-tiedoston teknisestä toteutuksesta riippuen migraation tekeminen voi olla työlästä.

Kuvat ovat peräisin kirjasta
Til-Landz, Elias Erici. Icones novae. [B]. Aboae : [Johan Larsson Wall], 1683.
Saatavissa: http://urn.fi/URN:NBN:fi-fe201803125930