Tietolinja

Tietolinja
2/1998


PÄÄKIRJOITUS

ARTIKKELIT


UUTISIA,
AJANKOHTAISTA

Elektroniset julkaisut vapaakappaleina

Juha Hakala


Tietoverkoissa julkaistaan jo nyt runsaasti kansallisen kulttuurin kannalta merkittävää aineistoa. Arvokkaan verkkoaineiston määrä kasvaa jatkuvasti, siitä huolimatta että nämä julkaisut ovat usein hyvin lyhytikäisiä. Kaupalliset kustantajat huolehtivat toistaiseksi oman elektronisen aineistonsa pitkäaikaissäilytyksestä, mutta aineiston menetettyä kaupallisen arvonsa tai kustantajan lopettaessa toimintansa julkaisujen säilyvyyttä ei voi taata. Vapaasti käytettävien verkkojulkaisujen säilytyksestä ei huolehdi kunnolla kukaan. Siksi on tärkeää organisoida elektronisten julkaisujen pitkäaikaissäilytys mahdollisimman pian kestävälle pohjalle.

Kaikentyyppisten elektronisten julkaisujen sisällyttäminen uuteen vapaakappalelakiin oli yksi opetusministeriön asettaman työryhmän keskeisistä tavoitteista. Työ käynnistyi tutustumisella muiden Pohjoismaiden vapaakappalelakeihin sekä käytännön toimintaan kansalliskirjastoissa. Suomeen ehdotettu ratkaisu poikkeaa kuitenkin muiden Pohjoismaiden nykyisistä laeista, koska nopeasti kehittyvä tekniikka antaa meille mahdollisuuden organisoida asiat hieman toisin kuin muualla.

Lain kate

Työryhmän ehdotus kattaa sekä fyysisellä välineellä julkaistun aineiston (atk-tallenteet) että verkkojulkaisut, eli tietoverkoissa julkaistun tai julkistetun aineiston. Lain kattavuuden kannalta on oleellista että se sisältää paitsi teokset siinä mielessä kuin termi on tekijänoikeuslaissa määritelty, myös vaatimattomamman, verkossa yleisön saataville asetetun aineiston.

Vapaakappalelain ulottaminen verkkojulkaisuihin on syytä suunnitella tarkoin. Jos kaikki verkossa oleva suomalainen aineisto määriteltäisiin luovutusvelvollisuuden alaiseksi, luovutusvelvollisten määrä kasvaisi Suomessa nykyisestä kolmesta tuhannesta kymmeniin, mahdollisesti satoihin tuhansiin. Uutta lakia koskeva tiedottaminen luovutusvelvollisille olisi käytännössä vaikeaa, vaikka Internet helpottaisi tätä ongelmaa - esimerkikkinä on Tanskan kansalliskirjaston hyvin suunniteltu vapaakappalepalvelin osoitteessa http://www.pligtaflevering.dk/. Ja jos kävisi niin onnellisesti että kaikki luovutusvelvolliset tavoitettaisiin ja merkittävä osa heistä luovuttaisi aineistonsa kirjastolle, kirjasto tarvitsisi todella paljon uutta henkilökuntaa voidakseen luetteloida julkaisut tai käsitellä ne muuten haettaviksi.

Vapaasti käytettävät verkkojulkaisut

Luovutusvelvollisten määrän rajaamiseksi ja kansalliskirjaston lisätyövoimatarpeen pienentämiseksi lakiehdotus on päätetty muotoilla siten, että vapaasti käytettävissä olevia verkkojulkaisuja ei tarvitse luovuttaa. Kansalliskirjasto saa kuitenkin oikeuden koota tämän aineiston verkosta keruuohjelman avulla. Julkaisut saa asettaa yleisökäyttöön muun elektronisen vapaakappaleaineiston tavoin. Käytännössä julkaisut indeksoidaan viitetietokannaksi, joka voidaan antaa vapaaseen yleisökäyttöön, vaikka itse dokumenttien katseluoikeutta rajoitetaan. Julkaisujen keruusta ja arkistoinnista sekä tietokannan ylläpidosta huolehtii joko HYK itse tai kirjaston valtuuttama taho.

Minkään muun maan vapaakappalelaissa ei vielä ole vastaavaa vapaan verkkoaineiston keruuoikeutta. Tähän lienee kaksi syytä: julkaisujen "haravointiin" ja indeksointiin tarvittava tekniikka on uutta ja pääosin kaupallisten yritysten hallussa, ja toiseksi verkkoaineiston merkitys on tajuttu vasta aivan viime vuosina. Suomessa tilanne oli ohjelmistojen osalta ihanteellinen, koska Nordic Web Index - ja Nordic Web Archive -projektien ansiosta meillä oli lähestulkoon valmiit ohjelmistot käytettävissämme. EVA-projektin osana CSC - Tieteellinen laskenta Oy on jo kerännyt kertaalleen kaiken vapaasti käytettävän suomalaisen verkkoaineiston, eli noin 1.5 miljoonaa dokumenttia (25 Gigatavua), ja arkistoinut dokumentit nauha-arkistoonsa.

Tätä kirjoitettaessa CSC:ssä on meneillään julkaisujen indeksointi tietokannaksi. Testeissä julkaisut on saatu nauha-arkistosta käyttäjän nähtäväksi noin 30 sekunnissa, mitä voi pitää täysin riittävänä "last resort" -tyyppiselle palvelulle. Julkaisut tullaan keräämään muutamia kertoja vuodessa, mutta tarpeen mukaan - eli jos sisältö muuttuu päivittäin - palvelimilla voidaan vierailla useamminkin. Uusi laki ei siis määrittele keruutiheyttä, koska se voi vaihdella.

Tiedämme siis EVA-projektin ansiosta varmasti, että uuteen vapaakappalelakiin kirjatut periaatteet vapaasti käytettävän verkkoaineiston käsittelystä toimivat käytännössä. Itse asiassa on mahdollista että ilman valmistelevia projekteja uutta lakia ei olisi muotoiltu nykyisellä tavalla, ja olisimme samassa tilanteessa kuin Tanska, jossa periaattessa kaikki verkkoaineisto on luovutusvelvollisuuden piirissä. Tanskan kansalliskirjasto sai uuden lain neljän ensimmäisen voimassaolokuukauden aikana noin 150 dokumenttia, mikä lienee varsin pieni osuus kaikesta Tanskassa verkossa julkaistusta aineistosta.

Atk-tallenteet ja käyttörajoitusten alainen verkkoaineisto

Atk-tallenteet vastaavat uudessa laissa perinteisiä julkaisuja siltä osin, että luovutusvelvollinen on valmistaja, ja aineiston luovutustiheys on sama kuin painetulla aineistolla. Ruotsissa luovutusvelvolliseksi on määritelty julkaisija, koska käytännön kokemukset CD ROM -levyjen saamisesta valmistajilta ovat olleet huonoja. Suomessa CD ROM -levyjen saanti valmistajilta on kuitenkin ollut varsin hyvä, vaikka luovutus on ollut vapaaehtoista. Siksi emme nähneet Ruotsin mallin soveltamista tarpeelliseksi.

Kirjaston kannalta kirjojen ja atk-tallenteiden samankaltaisuus jatkuu siinä, että atk-tallenteet on luetteloitava kansallisbibliografiaan niiden löytyvyyden takaamiseksi. Kansalliskirjasto tullee saamaan aluksi muutamia satoja atk-tallenteita vuodessa, aluksi CD ROM -levyjä, myöhemmin myös DVD-levyjä ja muita medioita. On todennäköistä että luovutettavan aineiston määrä kasvaa, vaikka informaatiosisällöltään vähäiset tallenteet kuten pelit ja varusohjelmat eivät kuulu luovutusvelvollisuuden piiriin. Tässä Suomen laki noudattaa EU:n suosituksia ja monien maiden omaksumaa käytäntöä.

Käyttörajoitusten alainen verkkoaineisto on hyvin heterogeeninen ryhmä. Siihen kuuluu kirjanmuotoisia julkaisuja, artikkeleita, av-aineistoa sekä esimerkiksi tietokantoja. Luovutusvelvollinen on aina julkaisija, koska valmistajaa ei välttämättä ole lainkaan.

Verkkoaineiston luovutustapa ja myöhempi käsittely kirjastossa riippuu julkaisutyypistä. Esimerkiksi kirjanmuotoinen aineisto pitää käsitellä kirjastossa samoin periaattein kuin atk-tallenteet, mutta elektroniset artikkelit voidaan hoitaa vain automatisoiduin menetelmin (katso seuraava luku).

Yksi ehdotetun lain keskeisistä elektronisia julkaisuja koskevista periaatteista on se, että kaikki luovutettu aineisto pitää olla sellaisessa dokumenttiformaatissa ja tallennettuna sellaiselle muistivälineelle, että kansalliskirjasto voi installoida aineiston.

Periaatteessa julkaisun formaatti tai tallennusväline ei saisi olla valinnan kriteeri. Käytännössä ei kuitenkaan ole järkevää ottaa vastaan aineistoa, jolle ei voida tehdä mitään. Lakiehdotukseen on kirjattu seuraavat asiaa koskevat periaatteet:

  • Kansalliskirjasto ylläpitää ohjetta luovutukseen kelpaavista dokumenttiformaateista (esimerkiksi SGML, XML, JPEG) ja tallennusvälineistä (esimerkiksi DAT-nauha, CD ROM -levy, DVD-levy)
  • Luovutusvelvollinen on velvollinen konvertoimaan aineiston toiseen formaattiin tai kopioimaan sen uudelle tallennusvälineellä, edellyttäen että tästä ei ole kohtuutonta vaivaa. Jos konversiota ei voi tehdä tai se on liian työläs, aineistoa ei tarvitse luovuttaa. Tarpeen vaatiessa - eli jos aineisto on arvokasta ja/tai sitä on runsaasti - konversio-ohjelman laadintaa voidaan rahoittaa julkisin varoin.

Kansalliskirjaston kannalta on ensiarvoisen tärkeää säilyttää julkaisujen alkuperäinen ulkoasu ja ominaisuudet. Siksi dokumenttiformaattia ei yleensä suositella aineiston valintaperusteeksi. Suomen uuden lain käytännön soveltamisessa formaatti- ja mediakysymysten rajaavaa merkitystä voidaan vähentää määrittelemällä hyväksyttyjen vaihtoehtojen lista mahdollisimman pitkäksi. Tämä vaikeuttaa julkaisujen pitkäaikaissäilytystä. Saatuja julkaisuja ei aina pystyttäne konvertoimaan muuhun muotoon ilman tietosisällön ja/tai ulkoasun oleellista muuttumista. Kansalliskirjaston on siksi selvitettävä mahdollisuudet vanhojen laitteisto- ja ohjelmistoympäristöjen emulointiin, jonka avulla vanhat sovellukset - ja dokumentit - olisivat käytettävissä myös tulevaisuuden laitteisto- ja ohjelmistoympäristöissä. Tähän aihepiiriin liittyvää selvitystyötä tehdään EU:n NEDLIB-projektissa, jossa myös Helsingin yliopiston kirjasto on mukana (http://www.kb.nl/nedlib) sekä eLib-projektissa nimeltä CEDARS (http://www.curl.ac.uk/cedarsinfo.shtml), jossa Leedsin yliopiston keskittyy emulointiohjelmien kehittämiseen.

Kun elektronista vapaakappaleaineistoa saapuu monissa eri formaateissa, vapaakappalekirjastoilla pitää olla käytettävissään suuri valikoima dokumenttien käsittelyyn tarkoitettuja ohjelmia. Nämä sovellukset on hankittava sekä luetteloijille että elektronisen vapaakappaleaineiston asiakaskäyttöön tarkoitetuille laitteille. Vapaakappalekirjastojen luettelointi- ja asiakaspalveluhenkilökunta tarvitsee täydennyskoulutusta selvitäkseen uusista tehtävistään kunnialla.

Luovutusmenetelmä

Elektronisten julkaisujen luovuttaminen voidaan organisoida joko siten, että luovuttaja lähettää kirjastolle luovutettavan aineiston, tai siten, että kirjasto saa vain ilmoituksen aineistosta ja käy itse hakemassa materiaalin julkaisíjan palvelimelta. Esimerkiksi Tanskan vuoden 1998 alussa voimaan astunut uusi vapaakappalelaki perustuu ilmoitusmenettelyyn. Syy tähän oli se, että Norjan kansalliskirjasto, joka noudattaa ensinmainittua luovutusperiaatetta, on saanut paljon epärelevanttia aineistoa verkossa julkaisevilta yksityishenkilöiltä.

Suomen uudessa laissa ei määritellä sitä, miten luovutuksen tulisi tapahtua. Luovutusmenetelmä (-menetelmät) määritellään alemman tason ohjeistuksessa. Syy tähän on se, että otollisin luovutustapa vaihtelee julkaisutyypistä toiseen ja todennäköisesti myös ajan myötä eikä asiaa siksi kannata määritellä lakiin. Käytännössä luovutustapoja voi olla useita rinnakkain. Jos vapaasti käytettävän verkkoaineiston vapaaehtoinen luovutus sallitaan relevanteimpien verkkojulkaisujen saamiseksi kansallisbibliografiaan - tämä kuuluu suunnitelmiimme - luovutus voi perustua ilmoitusmenettelyyn. Tähän tarvittavia välineitä kehitetään EVA-projektissa Nordic metadata -hankkeessa rakennettujen työkalujen pohjalta.

Kaupallisilta kustantajilta saatavan käyttörajoitusten alaisen verkkoaineiston luovutusta ei kannata perustaa ilmoitusmenettelyyn, koska aineistoa ei karsita ilmoituksen perusteella. Lisäksi ilmoitusmenettelystä koituisi lisätyötä sekä kirjastolle (aineiston noutaminen) että kustantajalle (kuvailun laadinta kaikille luovutettavilla dokumenteille, verkkoyhteyden avaaminen kirjastosta kustantajan koneelle, aineiston pitäminen tarjolla palvelimella). Julkaisuun mahdollisesti tallennettu kuvailutieto voidaan saada dokumentin mukana; sitä ei ole tarpeen lähettää erillisenä.

Artikkelit

Elektroniset artikkelit ovat hyvä esimerkki siitä, miten eri julkaisutyyppien luovutus- ja käsittelymenetelmät vaihtelevat. Vapaakappalelaissa ei tältä osin ole tarvetta mennä yksityiskohtiin, mutta työryhmän raporttiin sisältyvässä muistiossa asiaa on käsitelty. Sanoma- ja aikakauslehtien elektroniset artikkelit ovat kenties merkittävin uuden lain piiriin tuleva aineistoryhmä, ja siksi sen kustannus- ynnä muita vaikutuksia on arvioitu tarkoin.

Suuret suomalaiset sanoma- ja aikakauslehtikustantajat ovat rakentaneet kattavat kokotekstitietokannat. Lehtien ketjuuntumisen vuoksi esimerkiksi sanomalehtiartikkeleista 80 % sisältyy kolmeen tietokantaan, jotka kaikki sisältävät artikkelien kokotekstin SGML-muodossa. Kuvat tallennetaan tekstimuotoisten kuvailujen kera erillisiin tietokantoihin.

Tätä kirjoitettaessa kaikki artikkelitietokannat ovat sisäisessä käytössä, eivätkä niin muodoin ole luovutusvelvollisuuden alaisia uudenkaan vapaakappalelain mukaan. Mutta kun julkaisija avaa järjestelmän yleisökäyttöön - ja tätä suunnitellaan useammassakin lehtitalossa - tietokanta on julkaistu verkossa ja se kuuluu uuden vapaakappalelain piiriin.

Sanomalehtiartikkeleita ilmestyy vuodessa satoja tuhansia. Tekstin määrä gigatavuina ylittää CSC:n WWW-arkiston 25 Gigatavua, jossa on verkon kuvat ja muu ei-tekstimuotoinen aineisto mukana. Valtaosa tiedosta julkaistaan siis edelleen perinteiseen tapaan painettuna! Sanomalehtien artikkeleista luetteloidaan BTJ - Kirjastopalvelu Oy:ssä vain kaikkein relevanteimmat. Aikakauslehtiartikkelit kuvaillaan ARTO-tietokantaan kymmenien kirjastojen yhteistyönä noin 1100 lehdestä; 60.000-70.000 artikkelia vuodessa. Tämäkin on vain murto-osa koko artikkelituotannosta.

Kaikkien artikkeleiden luettelointi MARC-muodossa ei ole mahdollista. Ainoaksi vaihtoehdoksi jää kokoteksti-indeksointi. Kustantajien järjestelmien korkea tekninen taso tekee onneksi kokotekstikannan rakentamisen suhteellisen helpoksi. Uutuusaineisto voidaan poimia kustantajan tietokannasta, siirtää verkon yli kirjaston FTP-palvelimelle ja siitä edelleen niin sanotun Autoloader-ohjelman avulla päivitettäväksi tietokantaan. Tietokanta voi olla joko perinteinen kokotekstikanta, jolloin tarvitaan erillinen SGML-parseri, tai SGML-tietokanta. Käytännössä edellinen vaihtoehto on edullisempi ja toiminnallisesti yhtä hyvä kuin jälkimmäinen.

Kansalliskirjastoon voidaan siis rakentaa kokotekstitietokanta kaikesta Suomessa ilmestyvästä artikkeliaineistosta suhteellisen helposti. Koska lähtödata on rakenteista, myös kirjaston tietokannan hakuominaisuudet voivat olla varsin hyvät. Järjestelmän rakentaminen edellyttää kuitenkin saumatonta yhteistyötä kustantajien kanssa. Yksi perusedellytys tälle on, että aineiston käyttöoikeudet on selkeästi määritelty ja tietoturva-asiat kunnossa.

Elektronisen vapaakappaleaineiston käyttö

Painetun vapaakappaleaineiston käytöstä säädetään uuden vapaakappalelain 1. pykälässä samaan tapaan kuin nykyisen lain vastaavassa kohdassa. Vapaakappalekirjastoilla on velvollisuus antaa vapaakappaleaineisto tutkijoiden ja muiden tarvitsijoiden käyttöön. Käytännössä eri vapaakappalekirjastot ovat noudattaneet toisistaan poikkeavia periaatteita; joissakin kirjastoissa aineisto on ollut vapaammin käytettävissä kuin muissa vapaakappalekirjastoissa.

Osa painetusta aineistosta - esimerkiksi kirjat ja aikakauslehdet on tallennettu kaikkiin vapaakappalekirjastoihin. "Hajasijoitus" on ollut tarpeen, koska aineistoa ei ole voitu käyttää verkon kautta.

Elektronisia julkaisuja ei kannata luovuttaa monena kappaleena. Verkkojulkaisut tallennetaan arkistopalvelimille, jotka ovat käytettävissä tarkoitukseen varatuilta laitteilta kaikista vapaakappalekirjastoista. Arkistopalvelimia tarvitaan ainakin neljä:

  1. Vapaasti käytettävien verkkojulkaisujen palvelin (CSC - Tieteellinen laskenta Oy)
  2. Sanoma- ja aikakauslehtiartikkelien palvelin (HYK)
  3. Kirjanmuotoisen aineiston, atk-tallenteiden yms. palvelin (HYK, JYK)

Atk-tallenteiden kopiointi arkistopalvelimelle on välttämättömyys aineiston pitkäaikaissäilytyksen kannnalta, koska tallennusmedia - esimerkiksi levyke tai magneettinauha - voi olla erittäin lyhytikäinen. Tallennusvälineen elinkaaren lyhyyden vuoksi atk-tallenteita tarvitsee luovuttaa vain kaksi kappaletta, toinen HYK:lle ja toinen - varakappale - JYK:lle. Tarkempi määrittely siitä, mitä tallennetaan HYK:n ja JYK:n palvelimelle (jota ylläpidetään kopioimalla HYK:n koneen aineisto JYK:oon), tehdään asetuksessa. Asialla on merkitystä myös siksi, että kolmospalvelimella oleva aineisto luetteloidaan kansallisbibliografiaan.

Kansallisbibliografialuetteloinnin osalta on ratkaistava myös se, luetteloidaanko aineistoa jota Kansalliskirjasto ei tallenna omalle palvelimelleen, kuten esimerkiksi organisaatioiden kotisivuja. Kotisivujen luetteloinnilla on merkittävä rooli esimerkiksi Dansk BiblioteksCenterin InDoReg-projektissa. Projektin raportti (http://purl.dk/rapport/html.uk/) sisältää mielenkiintoista keskustelua muun muassa elektronisen aineiston luettelointiperusteista.

Arkistopalvelimen rakentaminen ja yllläpito ei ole halpaa lystiä. Tästä syystä palvelimia ei kannata pystyttää kaikkiin vapaakappalekirjastoihin, semminkin kun verkkokäyttö on useimmiten ongelmattomasti järjestettävissä. Hankalimmasta aineistoryhmästä eli atk-tallenteista Die Deutsche Bibliothek on havainnut, että noin 70 % tuotteista asentuu verkkoon ongelmitta. Ongelmallisten tuotteiden osuus on laskemaan päin, kun julkaisijat ovat alkaneet hyödyntää parempia ohjelmistoja CD ROM -levyjen teossa.

Arkistopalvelimille tallennettavan aineiston kaupallinenkin arvo tulee olemaan huomattava. Kansalliskirjastolla on uuden lain mukaan velvollisuus organisoida elektronisten vapaakappaleiden käyttö niin, että julkaisujen luvaton käyttö tai esimerkiksi muokkaaminen ei ole mahdollista. Eräs peruskysymys on, pitääkö julkaisut tallentaa salattuina ja allekirjoitettuina, vain riittääkö se että asiaton pääsy arkistokoneelle tehdään mahdollisimman vaikeaksi. Täysin mahdottomaksi sitä ei saada - palvelimen on oltava verkossa kiinni, jotta julkaisujen luvallinen käyttö olisi mahdollista.

Lopuksi

Tavoitteena on, että uusi vapaakappalelaki astuisi voimaan 1.1.2000. Joiltakin osin uuden lain mukanaan tuomien uusien tehtävien hoitamista valmistellaan jo nyt, ja tarvittavia välineitä on kehitetty tai hankittu - VTLS-ohjelmisto sallii atk-aineiston luetteloinnin, ja HYK:lla on arkistopalvelin jolle elektronisia julkaisuja voidaan tallentaa.

Monet uudet tehtävät edellyttävät lisäresursseja ja lain valmistumista. Lain hyväksymisen jälkeen on odotettavissa muutaman vuoden jakso, jolloin uusia järjestelmiä kehitetään. Jos kaikki sujuu suunnitelmien mukaan, vuoden 2002 lopulla elektronisen vapaakappaleaineiston käsittelystä on tullut vapaakappalekirjastoille rutiinia.

Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto
Email: Juha.Hakala@helsinki.fi

Tietolinja 2/1998