Tietolinja

Tietolinja
4/1999


PÄÄKIRJOITUS

ARTIKKELIT


Eväät elektronisten vapaakappaleiden vastaanottamiseen

Kaisa Kaunonen


Uusi vapaakappalelaki on pitkän valmistelun jälkeen tulossa voimaan Suomessa. Jos eduskunta suo, laki tulee voimaan vuoden 2001 alusta, kuten lakia valmistellut työryhmä on suositellut. Uutta laissa on se, että ensimmäistä kertaa luovutettaviin aineistoihin kuuluu elektronisia julkaisuja.

Uusi laki voimaan vuoden 2001 alusta?

Uusi vapaakappalelaki on pitkän valmistelun jälkeen tulossa voimaan Suomessa. Jos eduskunta suo, laki tulee voimaan vuoden 2001 alusta, kuten lakia valmistellut työryhmä on suositellut. Uutta laissa on se, että ensimmäistä kertaa luovutettaviin aineistoihin kuuluu elektronisia julkaisuja.

Kansalliskirjastossa asia on ollut tiedossa jo kauan, sillä työryhmässä on ollut mukana HYKistä kehittämisjohtaja Juha Hakala ja toimistopäällikkö Riitta Mattila. Käytännön toimiin ryhdyttiin jo syksyllä 1997 käynnistämällä kirjastossa EVA-projekti. Siinä on kokeiltu pienimuotoisesti elektronisen aineiston vastaanottamista ja siihen liittyviä asioita. Aineiston toimittajina on ollut Edita ja Maanmittauslaitos.

Itse asiassa EVAssa on ollut monia osia ja elektronisen aineiston vastaanottaminen suoraan kustantajilta on vain yksi näistä. Paljon aikaa ja voimia on käytetty esimerkiksi vapaiden verkkoaineistojen haravoinnin suunnitteluun ja toteutukseen sekä elektronisten aineistojen metadataan. Näistä on kirjoitettu jo aikaisemmissa Tietolinjan artikkeleissa, joten kuvailen tässä vain kustantajilta saapuvan aineiston käsittelyä.

Pääperiaate: julkaisija lähettää kirjastolle

Elektroniset vapaakappaleet ovat kaupallisia julkaisuja, jotka ovat maksullisia käyttäjilleen, mutta joista julkaisija lähettää vapaakappaleen kansalliskirjastolle. Kokoelman kartuttamisessa pääpaino onkin sanoilla julkaisija lähettää kirjastolle. Toinen vaihtoehto olisi, että kirjasto itse kerää elektroniset aineistot kustantajien palvelimilta. Jotkut ulkomaiset kansalliskirjastot ovat valinneet tämän menetelmän.

Esimerkiksi Tanskassa kustantaja ilmoittaa kansalliskirjastolle suljetun palvelimensa salasanan ja asettaa aineiston tiettyyn hakemistoon kopioitavaksi. Tästä on jo nyt aiheutunut joitain vaikeuksia, kun palvelinten osoitteet ja niiden salasanat muuttuvat, eikä muutoksia ole ajoissa korjattu hakurobottiin. Lisäksi kustantajat joutuvat pitämään julkaisuja parikin kuukautta tietyssä hakemistossa odottamassa, että kirjaston hakurobotti varmasti saa ne kopioitua.

Elektronisten vapaakappaleiden tyypit

Elektronisia vapaakappaleita on kolmea päätyyppiä:

  • verkkojulkaisut, jotka kustantaja toimittaa asiakkaille Internetin kautta
  • multimediajulkaisut, jotka yleensä toimitetaan CD-ROM-levyillä
  • tietokantojen raakadatasta tehdyt julkaisut, jotka voi toimittaa joko verkon kautta tai levyllä

Jokainen päätyyppi sisältää useita mahdollisia tiedostoformaatteja. Esimerkiksi verkkojulkaisut voivat olla HTML-, XML- tai PDF-tiedostoja. Kaikkia elektronisten julkaisujen tyyppejä varten kirjaston täytyy pitää listaa niistä tiedostoformaateista, joissa kirjasto voi hyväksyä julkaisun. Julkaisu pitää toimittaa jossakin näistä formaateista. HYKissä ei ole vielä valmista formaattilistaa kustantajien käyttöön, mutta siihen tulee mahdollisimman yleisiä julkaisutoiminnassa käytettyjä formaatteja, joiden käsittelyyn kirjastossa on ohjelmistot. Ei ole mieltä ottaa vastaan tiedostoja, joita kirjastossa ei pystytä avaamaan. Formaattilistan ylläpito velvoittaa myös kirjastoa, jonka teknisten taitojen pitää pysyä ajan tasalla kun elektroninen julkaiseminen kehittyy kustantamoissa.

Verkkojulkaisujen lähetys ja vastaanotto

Verkkojulkaisu koostuu usein monista toisiinsa linkitetystä tiedostoista. Lähetystä varten julkaisijan kannattaa pakata tiedostorypäs yhteen arkistopakettiin, jossa on mukana kaikki julkaisun osat ja aputiedosto, jossa on alustavia bibliografisia ja teknisiä tietoja luetteloimista ja julkaisun asentamista varten. Valmis paketti lähetetään kirjastolle Internetin kautta.

Kirjaston täytyy pitää rekisteriä niistä kustantajista, joiden kanssa se on aloittanut aineiston vastaanottamisen. Kustantajilla on tunnus ja salasana, joilla ne pääsevät siirtämään paketteja saapuvien aineistojen hakemistoon. Suurilla kustantajilla voi olla omat hakemistonsa. Lähetyksen aikana voi olla syytä käyttää kryptausta, eli salakirjoittaa paketit siltä varalta, että joku ulkopuolinen onnistuisi kopioimaan niitä itselleen lähetyksen aikana. Kryptattuja tekstejä ei voi lukea ilman salasanaa, vaikka onnistuisi saamaan tekstit haltuunsa. Salaukseen käy esimerkiksi SSH-ohjelmisto, jolla lähettäjä siirtää aineiston vastaanottajan koneelle kryptattuna ja vastaanottaja helposti purkaa paketin selkokieliseksi. Tämä kaikki onnistuu, kun kummallakin puolella on käytössä oikeat salasanat, joiden käytöstä on etukäteen sovittu.

Tietyin väliajoin kirjaston henkilökunta tarkastaa saapuvien lähetysten hakemiston ja siirtää sieltä julkaisut pois. Jos työvoimaa olisi käytettävissä rajattomasti, se voisi viettää kunnolla aikaa saapuneen julkaisun parissa. Periaatteessa julkaisu pitäisi avata ja asentaa jollekin koneelle toimimaan. Tämän jälkeen tarkastettaisiin, että kaikki linkit ja hyperominaisuudet toimivat oikein. Tähän ei ole kuitenkaan aikaa. Jopa teknisesti keskinkertaisten hypertekstien linkit ovat kuin suo, eikä edes tavallinen kotikäyttäjä tule helposti kulkeneeksi läpi julkaisun kaikkia linkkejä. Jonkinlainen perusasennus- ja tarkastus on silti hyvä tehdä, jotta kirjasto ei ota säilytykseen jo valmiiksi rikkinäistä kopiota julkaisusta. Lisäksi avaamalla julkaisu saadaan ehkä puuttuvaa bibliografista tietoa kuvailua varten. Kuvailu tehdään Fennica-tietokantaan. Siellä onkin jo esimerkkinä kaikki Editan tähän mennessä toimittamat verkkojulkaisut. Edita on yksi suomalaisen elektronisen julkaisun edelläkävijöitä, ja se on osallistunut EVAan jo muutaman vuoden ajan toimittamalla HYKille esimerkkejä verkkokirjallisuudesta, esimerkiksi oppimateriaalia ja Suomen sähköisen säädöskokoelman.

Verkkojulkaisua säilytetään niin, että sen kopiot on suojattu luvattomilta käyttäjiltä. Tietosuojaa tosiaan tarvitaan, sillä jos yksikin luvaton kopio kirjaston elektronisesta kappaleesta pääsee liikkeelle, niitä syntyy nopeasti lisää. On parasta säilyttää arkistokopiota suljetulla palvelimella, johon kirjaston henkilökunta saa yhteyden vain tietyiltä koneilta. Julkaisun käytöstä muutoin kuin vapaakappaleena sovitaan erikseen.

Multimedia CD-ROM-levyillä

Verkkojulkaisutkin voivat sisältää multimediaa, mutta yleensä varsinaiset multimediajulkaisut tuotetaan CD-ROM-levyillä. Vaikka CD-ROM-levyt eivät tähän saakka ole kuuluneet vapaakappalelain piiriin, jotkut kustantajat ja valmistajat ovat lähettäneet niitä HYKille, tosin lähettäminen on ollut melko satunnaista. Multimedia-aineiston selvittämiseksi HYKin vapaakappaletoimisto aluksi tutki ja järjesti CD-ROM-kokoelmansa, joka on syntynyt kustantajien tähän mennessä lähettämistä levyistä.

Erityisesti kiinnitettiin huomiota Editan julkaisuihin. Edita on tytäryhtiönsä ToThePointin kautta yksi johtava suomalainen multimedia tuottaja. To the Point painattaa levyt Z-Trading-nimisessä yrityksessä. Z-Trading on nyt HYKin luovuttajalistassa ja toimittanee jatkossa yhden kappaleen kaikkia uusia julkaisuja kirjastolle, vaikka luovutus on ennen uutta lakia vapaaehtoista. Jos yhteistyö lähtee hyvin käyntiin, Edita olisi ensimmäinen suomalainen multimedian tuottaja, jolta on melko täydellinen julkaisujen sarja HYKin kokoelmissa.

Kustantaja voi lähettää levyt mukavasti tavallisessa postilähetyksessä kuten painetut vapaakappaleet. Kuten verkkojulkaisulle, levylle pitää tehdä saapumisen jälkeen perusasennus ja katsoa että se pääpiirteissään toimii. Nykyiset CD-ROMit ovat melko hyvin standardoituja, joten tämä ei aiheuta vaikeuksia.

Vaikeudet CD-ROMien kanssa voivat ilmetä pitemmän ajan kuluessa. CD-ROMit ovat todennäköisesti sellaisia elektronisen julkaisun muotoja, jotka on kaikkein vaikeinta pitää käytettävissä, kun ohjelmistot ja laitteistot muuttuvat. Niiden sisällölle ei voi tehdä konversiota kuten verkkojulkaisujen tiedostoille, sillä levyt sisältävät myös ohjelmanpätkiä, jotka tarvitaan sisällön näyttämiseen. Jo nyt on nähtävissä, että CD-ROMit alkavat vähitellen korvautua DVD-levyillä.

HYKissä varaudutaan CD-ROMien asiakaskäyttöön kokeilemassa Saksan kansalliskirjastoille hehitettyä MMB-ohjelmaa. Järjestelmä saadaan koekäyttöön Nedlib-projektin kautta, johon HYK osallistuu yhdessä monien eurooppalaisten kansalliskirjastojen kanssa. Järjestelmä on nykyisin käytössä Saksan kansalliskirjastossa Deutsche Bibliothekissä.

Tietokannoista jalostettavat julkaisut

Aina ei riitä se, että kirjastolla on vapaa pääsy haluamaansa dataan. Vaikeuksia syntyy siitä, että aineistot eivät ole arkistoitavassa muodossa. Kustantajat usein tallettavat datan raakaformaatissa tietokantaan, josta ne tekevät erityisillä ohjelmilla luettavia tuotteita kunkin asiakkaan toivomuksen mukaan. Kirjasto ei voi ottaa vastaan kokonaisia tietokantoja. Tietokantojen ylläpito on raskasta ja tiedon tuottaja tekee niihin jatkuvasti täydennyksiä ja muita muutoksia, joiden pitäisi näkyä myös kirjaston ylläpitämässä kopiossa.

Ratkaisu on, että julkaisija toimittaa kirjastolle valmiiksi formatoituja julkaisuja näytteinä kokonaisesta tietokannasta eri ajanhetkillä. Valmiita julkaisuja kirjasto voi ylläpitää ja muuntaa uusiin formaatteihin. Esimerkiksi valmiiden XML-muotoisten julkaisujen ylläpitäminen on paljon helpompaa kuin SQL-tietokantojen, joista data on alunperin kerätty. Arkistoinnin onnistumiseksi julkaisijan ja kirjaston täytyy vain yhteisesti sopia, mitä julkaisuja tuotetaan tallennettavaksi ja kuinka usein tietokannasta otetaan "näytteitä".

EVAssa on ollut mukana Maanmittauslaitos (MML), jonka elektroninen kartta-aineisto on tietokannoissa. Karttojen tiedostoformaatteja on valitettavasti hyvin laaja ja kirjava joukko ja standardisointi on vasta käynnissä. Formaatit jakautuvat rasteri- ja vektoriformaatteihin. Rasteriformaatit saattavat aueta yleisilläkin ohjelmilla, mutta vektoriformaatteihin tarvitaan pääsääntöisesti erillinen sovellusohjelma. Kirjasto ei nyt eikä myöhemminkään voi ylläpitää laajoja erityisohjelmistoja, joilla elektronisia karttatietokantoja käsitellään. Tämän vuoksi kirjasto ei voi ottaa vastaan raakadataa eli tietokantoja sellaisenaan.

Yksi ratkaisu on aineistojen koostaminen raakadatasta uuteen formaattiin. MML:n asiakkaat voivat tilata vektorimuotoisesta raakadatasta koostettuja aineistoja, jotka toimitetaan asiakkaalle helposti aukeavassa rasteriformaatissa CD-ROMilla tai Internetin kautta. MML on toimittanut EVAlle koeaineistoa kuvailtavaksi ja luetteloitavaksi Fennica-tietokantaan. Aineistona tuli koko Suomen peruskartasto (PerusCD) ja ortokuvia tiff-formaatissa. Kirjastossa ei ole ollut aikaisemmin tällaisia aineistoja käsiteltävänä, mutta nyt Fennicaan on jo luetteloitu PerusCD, joka käsittää koko Suomen.

Jatkossa on mietittävä aineiston valintaa kirjastoon. Yksi ongelma on, että monet kartat ovat siirtyneet pelkästään elektroniseen muotoon (esim. maaperäkartat, metsätalouskartat). Ennen niitä julkaistiin painettuina karttoina, mutta ei enää. Tiedon tallentamisen ja säilymisen kannalta ongelmallisia ovat juuri sellaiset tietokannat, joista ei julkaista jalostettuja tuotteita muuta kuin tilaustöinä. Peruskartasto on siitä hyvä ja poikkeuksellinen tuote, että se on valmiiksi julkaistu riippumatta asiakkaiden tilauksista.

Arkistoitavan aineiston valinnassa oikeastaan vain yksi mahdollisuus. MML:n ja muiden julkaisijoiden tuotteet ovat niin monipuolisia ja erikoistuneita, että HYKissä ei ole asiantuntemusta päättää siitä, mitä osia datasta kannattaa säilyttää. On paljolti julkaisijan vastuulla esittää kirjastolle, mitkä osat datasta kannattaa säilyttää julkaisuina.

Tietokantojen joukkoon voi lisätä vielä sanomalehtiarkistot. Vaikka sanomalehdet edelleen toimitetaan lukijoille paperilla painettuna, kustantajat säilyttävät uusista vuosikerroista vain elektroniset arkistot. Esimerkiksi Helsingin Sanomien koko paperinen lehtiarkisto poistui käytöstä, kun lehti muutti äskettäin uuteen taloon. Koska sanomalehdet ovat aina olleet kansalliskirjaston keskeistä aineistoa, lehtien elektronisten arkistojen siirtäminen tai kopiointi kirjastolle on tärkeä asia. Tähän aiotaan paneutua EVAn jatkohankkeessa, joka alkaa keväällä 2000. Todennäköisesti lehtien arkistot perustuvat XML-formaattiin, joka on rakenteisten verkkojulkaisujen kuvailukieli. Silloin on mahdollista tuottaa tietokannoista/arkistoista XML-muotoisia julkaisuja, jotka toimitetaan kirjastolle verkon kautta. Kirjasto on tutkinut EVA-projektissa jo pitkään XML:n käyttökelpoisuutta verkkojulkaisujen arkistointiin.

Tammikuussa vuonna 2001?

Jos vapaakappalelaki tulee uusittuna voimaan tammikuussa 2001, kannattaa aloittaa käytännön toiminta muutaman suuren julkaisijan kanssa ja aloittaa nopeasti tiedon levittäminen lain sisällöstä muille julkaisijoille.

Edellä on luonnosteltu tapa, jolla kannattaa lähteä liikkeelle. Vuoden 2000 aikana suunnitelmia ehditään tarkentaa ja kun elektronisen aineiston kerääminen alkaa toden teolla, menetelmiä ja tapoja hiotaan edelleen. Lisäksi on koottava pieni ryhmä eri alojen asiantuntijoita (julkaisuformaatit, kuvailu, luettelointi), joka ottaa käsittelyynsä elektroniset vapaakappaleet HYKissä.

Kaisa Kaunonen
Suunnittelija
Helsingin yliopiston kirjasto
email: Kaisa.Kaunonen@helsinki.fi

Tietolinja 4/1999