Tietolinja

Tietolinja
02/2006

WorldCat.org

Juha Hakala
Kansalliskirjasto

URN:NBN:fi-fe20061551


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Elokuusta 2006 lähtien OCLC:n WorldCat-tietokanta on ollut maksutta käytettävissä tiedonhakuun osoitteessa http://worldcat.org. Syksyn mittaan kannasta on tehty noin 10 miljoonaa hakua kuukaudessa, vaikka palvelua ei ole erityisesti mainostettu ainakaan Yhdysvaltojen ulkopuolella. Syytä olisi, sillä järjestelmän kattavuus ja hakuominaisuudet ovat erinomaiset.

WorldCat on kautta aikojen perustunut OCLC:n itse kehittämiin ohjelmistoihin. 70-luvulta aina vuoteen 2005 laitteistoalustana olivat IBM:n järeät palvelimet, joille oli varattu satoja neliömetrejä tilaa OCLC:n päärakennuksesta. Mutta vuonna 2000 OCLC päätti modernisoida WorldCat-järjestelmän. Vanha kotitekoinen sovellus toki toimi yhä, mutta siinä ei ollut kasvunvaraa. Uusi sovellus päätettiin rakentaa alusta lähtien uusiksi, jotta lopputulos olisi mahdollisimman moderni.

Ja toden totta, uusi WorldCat on moderni. Keskitetyn palvelimen asemesta laitteistoalustana on edullisten Linux-palvelimien klusteri, jonka päälle rakennetut sovellukset ovat melkoisia hakoja MARC-datan käsittelyssä. Päivitysten suorituskykyä kuvaa se, että yhden normaalin työpäivän mittaan – satojen tuhansien tiedonhakujen lomassa – tietokantaan voidaan ajaa noin miljoona tietuetta sijainti- ja varastotietoineen. Kannassa oli lokakuussa 2006 noin 73 miljoonaa bibliografista tietuetta, joista rakentuu reippaat 50 miljoonaa teosta.

Päivitettävää on kuluvan vuoden mittaan riittänyt, kun OCLC on vienyt kantaan saksalaisten kirjastojen aineistoja. Loka-marraskuun vaihteessa 2006 oli käynnissä Saksan kansalliskirjaston koko tietokannan load, minkä jälkeen vuorossa ovat Bayerische Staatsbibliothek sekä kolmen Saksan osavaltiotason konsortion (GBV, BSZ ja Hebis) yhteisluettelot. Saksalla ei ole ollut fyysistä yhteisluetteloa sen jälkeen kun Deutsches Bibliotheksinstitut’in ylläpitämä tietokanta lakkautettiin 90-luvulla, mutta nyt tuo yhteisluettelo herää jälleen henkiin osana WorldCatia.

WorldCat on VTLS:n Virtuan ohella ensimmäisiä FRBR-pohjaisia sovelluksia. Teknisesti molemmat järjestelmät on toteutettu niin, että tietokannassa kaikki julkaisua koskeva data on XML-tiedostona, josta tilanteen mukaan noukitaan katsottavaksi erilaisia tietoja (jotka Worldcat.org -palvelussa ovat niukat, ja tietokannan maksullisissa versioissa oleellisesti kattavammat). Samasta manifestaatiosta voidaan säilyttää rinnan erilaisia versioita; esimerkiksi Suomen kansallisbibliografiasta päivitetty tietue, luettelointikielenään suomi, ja Harvardin yliopiston laatima englanninkielinen tietue samasta julkaisusta säilytetään järjestelmässä rinta rinnan, ja asiakas näkee sen version, joka on hänelle sopivampi. Nämä saman tietueen rinnakkaisversiot lasketaan muuten yhdeksi tietueeksi.

Worldcat.org -palvelua ei olisi voitu avata perinteisessä laitteisto- ja ohjelmistoympäristössä, muun muassa sen vuoksi että käytön voimakas kasvu olisi aiheuttanut vaikeuksia – sekä palvelimissa että hakujärjestelmässä kasvun rajat olisivat tulleet nopeasti vastaan. Uudessa järjestelmäarkkitehtuurissa konekapasiteetin kasvattaminen on helppoa ja varsin halpaa puuhaa, ja myös hakuohjelmiston tehon pitäisi olla riittävä vielä pitkään.

Miten perinteiset kirjastojärjestelmätoimittajat voisivat ottaa OCLC:ltä opiksi? Oma mielipiteeni on, että bibliografisten tietojen tallentaminen sisäisesti XML-muodossa on merkittävä etu. Esimerkiksi Virtuan FRBR-tuki oli ilmeisesti varsin helppo toteuttaa XML-tallennuksen ansiosta. Hakumodulin osalta vaatimuksia on vähintään kaksi: tarvitaan hyvä hakukone – jollaisia on saatavilla useita – ja sen lisäksi sovellus, joka ymmärtää MARC-formaatin semantiikkaa. Muidenkin metadataformaattien hallitseminen on eduksi; jatkossa järjestelmämme kehittyvät metatietojen osalta koko ajan monimuotoisemmiksi.

Innovative on mielenkiintoinen esimerkki siitä, mitä tuleman pitää. Se käyttää Encore-ohjelmistossaan maksutonta avoimen lähdekoodin Lucene-sovellusta (http://lucene.apache.org/) ja sen päälle itse rakennettua sovellusta, joka ymmärtää indeksoitavan datan semantiikkaa. Hyvin toteutettuna tämä kombinaatio on tehokas; käyttökohteita voivat olla esimerkiksi julkaisujen relevanssin arviointi sen pohjalta, mistä metadatakentästä tieto on peräisin, sekä FRBR-pohjainen julkaisujen linkittäminen.

Suomalaiselle käyttäjälle Worldcat.org –hakupalvelu on mielenkiintoinen tapaus paitsi katteensa vuoksi (Fennican monografiatietueet vuodesta 1800 ja yli 70 miljoonaa muuta tietuetta), myös sen takia, että tietokanta tarjoaa FRBR-pohjaisia erikoisominaisuuksia. OCLC on panostanut FRBR:ään voimakkaasti, koska sen avulla kirjastojen tallentamista kuvailutiedoista voidaan saada enemmän irti. (OCLCn FRBR-tutkimusprojekteista katso http://www.oclc.org/research/projects/frbr/default.htm)

Haettaessa WorldCatista esimerkiksi Väinö Linnan julkaisuja hakujärjestelmä laajentaa ja jalostaa tulosjoukkoa soveltamalla tulosjoukkoon kertyvien MARC-tietueiden sisältöä. Hakutuloksesta löytyy heti myös Linnaa tai hänen teoksiaan koskevia julkaisuja. Toisaalta hakua voi helposti rajata esimerkiksi kielen, julkaisuvuoden tai julkaisun fyysisen muodon perusteella.

Linnan julkaisujen osalta Fennica on WorldCatia kattavampi, mutta helposti löytää myös ulkofennicaa, joka meiltä vielä puuttuu. WorldCatissa on mm. joukko tanskan- ja englanninkielisiä Runeberg-käännöksiä, joista Fennica tuntee osan, mutta ei kaikkia. Samoin Eliel ja Eero Saarista koskevasta aineistosta kansalliskokoelmaan on ainakin Fennican perusteella saatu vain osa.

Perinteisistä kirjastojärjestelmätoimittajista osa on jo nyt kehitystyössään OCLC:n kanssa samoilla jäljillä. Endeavorkin on esittänyt suunnitelmia, jotka seuraavat WorldCatin avaamaa latua. Valitettavasti harva ohjelmistotoimittaja on saanut valmista aikaan. Niin ilmeiseltä (ja kätevältä) kuin FRBR-tyyppinen haun jalostaminen vaikuttaakin sen jälkeen kun sen on käytännössä nähnyt, sen tekninen toteutus tuottaa harmaita hiuksia, varsinkin jos järjestelmän hakukone on vanhanaikainen.

Me tiedontarvitsijat voimme sen vuoksi olla tyytyväisiä siitä, että OCLC on avannut yhteisluettelonsa vapaaseen käyttöön, ja kyennyt rakentamaan hakusovelluksen jonka avulla tuota tietokantaa on miellyttävää käyttää. Kaikki kunnia WebVoyagelle ja muille perinteisten kirjastojärjestelmien WWW-käyttöliittymille, mutta suosittelen silti että vertailette esimerkiksi kotimaisen aineiston hakemista Fennicasta ja WorldCatista. Ainakin minulle on aika ilmeistä, kumpi sovellus on tiedonhaussa tehokkaampi ja käyttäjäystävällisempi. Niin, ja vain toinen näistä ohjelmistoista sallii käyttäjän poiketa kahvilla, ja jatkaa istuntoa sen jälkeen.

OCLC tulee kehittämään WorldCatia edelleen muun muassa luomalla Kirjasto 2.0 –henkisiä Web-palveluita, joiden avulla muut sovellukset voivat käyttää järjestelmää hyödyksi. Esimerkki tästä on xISBN (http://www.oclc.org/research/projects/xisbn/). Esimerkiksi Voyager voisi hyödyntää tätä palvelua niin, että jos asiakkaan hakemaa julkaisua ei löydy, sen ISBN-tunnuksella tehdään "kulissien takana" haku WorldCatista. Jos haku "tärppää", tietokanta palauttaa myös samaan teosperheeseen kuuluvien muiden manifestaatioiden ISBN-tunnukset, minkä jälkeen näiden julkaisujen saatavuus voidaan tarkistaa omasta näyttöluettelosta ja mahdollisesti Lindasta.

Kansalliskirjaston ja suomalaisten kirjastokonsortioiden kannalta OCLC:n tekninen edistyneisyys ja yhteistyöhalukkuus avaavat joukon mielenkiintoisia kysymyksiä jatkosta. Pitäisikö meidän lähettää Fennica-aineiston lisäksi myös Viola-tietueet? Entä Arto, tai Linda saatavuus- ja varastotietoineen? Itse näkisin, että yhteistyömahdollisuudet ja niiden vaikutukset kannattaa analysoida, ja sen jälkeen yhdessä päättää, miten edetään. Kansainvälisen yhteistyön ja näkyvyytemme kannalta OCLC-suhteemme mahdollinen syventäminen on yksi kauaskantoisimpia lähiaikoina tehtäviä ratkaisuja, eikä päätöksiä pidä tehdä hätiköiden.

 


Tietolinja 02/2006

Juha Hakala, kehittämisjohtaja
Kansalliskirjasto
PL 26 (Teollisuuskatu 23), 00014 Helsingin yliopisto
Email: juha.hakala (at) helsinki.fi