Tietolinja

Tietolinja
01/2004

Triangeli tulee, oletko valmis?

Juha Hakala
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20041354


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Nelli-portaalin juhlalliset avajaiset pidetään 15. syyskuuta 2004, ja myös ENCompass –ohjelmiston (dokumenttiarkiston) käyttö alkaa syksyllä. Voyager, MetaLib ja ENCompass tukisovelluksineen (RefWorks, BookWhere) muodostavat niin sanotun triangelin, jonka suunnittelu ja rakentaminen on työllistänyt Kansalliskirjastoa jo muutamia vuosia. Suunnitelmien muuttuminen todellisuudeksi on kuluvan vuoden kirjastoatk:n suuri tapaus kansallisella tasolla.

Triangelin käyttöönoton vaikutusta kirjastojen toimintaan ja palveluihin ei ole vielä tyhjentävästi arvioitu; tarkan analyysin aika on sitten kun järjestelmä on tuotannossa. Mutta noin harjoitusmielessä, ja ottaaksemme mittaa "perinteisestä vihollisesta", voidaan arvioida miten triangelisovelluksin ja muin modernein tietoteknisin välinein varustettu kirjasto selviää kisassa Googlea vastaan. Väitteet siitä että Google tekee kirjaston tarpeettomaksi kun eivät ole kovin harvinaisia. Samoja väitteitä muuten kuuli jo 90-luvun lopulla, mutta silloin Googlen paikalla oli AltaVista. Muistatko vielä tuon hakupalvelun, ja milloin viimeksi käytit sitä verkkotiedonhakuun?

Verkkotiedonhaku kirjastoista ja Googlesta voidaan jäsentää seuraavasti:

Normaali Web

Google: nykyhetken Web suhteellisen kattavasti indeksoitu; palvelu ei sisällä vanhaa aineistoa mutta on muuten hyvin tehokas.

Verkon arkistointi (The Internet Archive sekä kansalliskirjastojen ylläpitämät kansalliset verkkoarkistot ja niiden hakuindeksit) tarjoaa hakumahdollisuuden sekä uuteen että vanhaan aineistoon. Verkon haravointi tallentaa verkon historian kohtuullisen tarkasti; Suomessa on kerätty toukokuuhun 2004 mennessä 18 miljoonaa tiedostoa noin 50 miljoonasta kotimaisesta URL-osoitteesta.

Deep Web; esim. tietokannat

Google ei nykymuodossaan sovellu tietokantahakuun. Ei ole selvää onko järjestelmää mahdollista laajentaa varsinkaan viitetietokantojen hakemiseen.

Tiedonhakuportaalin avulla pystyy tekemään tehokkaasti hakuja tiedonhakustandardeja (Z39.50, ZING SRU/SRW) tukevista järjestelmistä olivatpa ne kokoteksti- tai viitetietokantoja. Epästandardeja tietokantoja voi konfiguroida portaaliin, mutta niiden tietojen ylläpito on vaikeaa, koska pienikin muutos kohdejärjestelmässä voi estää portaalihaut kokonaan.

Alun perin kirjastojen viitetietokantoja varten kehitettyjen tiedonhakustandardien merkitys Deep Web –tiedonhaulle tulee portaalien myötä kasvamaan, mutta tiedon hakija on toistaiseksi ihminen; "älykkäitä" hakuagentteja on pyritty kehittämään jo vuosia, mutta toistaiseksi huonolla menestyksellä.

Kokoelmien kuvailu (tietokartta) auttaa asiakkaita löytämään oman tiedontarpeensa kannalta relevantit aineistot verkosta. Tehokas koko verkon kattava palvelu saadaan aikaan vain jos eri kirjastoissa ja maissa tehdyt kuvailut ovat vaihtokelpoisia ja jos portaalisovellukset linkitetään toisiinsa niin, että ne voivat vaihtaa kokoelmien ja palvelujen kuvailuja keskenään.

Palvelujen (esimerkiksi Linda-tietokannan Z39.50-palvelin) kuvailut antavat portaalisovelluksille tiedon siitä, miten etätietokantoja voi käyttää. Tarvittava informaatio voidaan kerätä tiedonhakustandardeja tukevista tietokannoista automaattisesti, ja se voidaan jakaa portaalisovellusten kesken automaattisesti samalla tapaa kuin kokoelmien tiedot.

Dokumenttiarkiston (ENCompass) avulla keskeinen julkaistu elektroninen aineisto kuten väitöskirjat voidaan säilyttää ja saada tehokkaasti haettaviksi.

Perinteiseen integroituun kirjastojärjestelmään voidaan luetteloida keskeistä verkkoaineistoa ja tarjota joko staattinen (URL) tai dynaaminen (OpenURL) linkki viitteestä dokumenttiin. Luetteloinnin lisäarvo vähenee sitä mukaa kun Googlen ja FASTin kaltaiset hakukoneet kykenevät indeksoimaan dokumentteja tehokkaammin.

Kuten edellä olevasta taulukosta ilmenee, portaali ja dokumenttiarkisto ovat syvän Webin kalastajia, eivätkä sen vuoksi kilpaile verkon pintavesissä saalistavan Googlen kanssa. Google-kisassa triangeli merkitsee siis meille kirjastoille vähintään erävoittoa.

Kirjastojen on silti tarkoin harkittava, miten verkkoaineistojen kanssa toimitaan. Perinteisten menetelmien soveltaminen Webissä ei välttämättä ole paras mahdollinen strategia; esimerkiksi verkkolehtien kattava luettelointi ISSN-järjestelmään on kyseenalainen meriitti silloin kun näitä lehtiä ei tallenneta asianmukaisesti. Verkkoaineiston luetteloimista on ylipäätään harkittava tarkoin, koska moderni hakukone pystyy "luetteloimaan" varsinkin rakenteista tekstiä tehokkaasti. Mutta hakukoneet eivät pysty hahmottamaan laajempia kokonaisuuksia, kuten kokoelmia. Siihen pystyy vain ihminen joka tuntee oman kirjastonsa aineistot ja käyttäjien tarpeet hyvin.

Hakukoneet eivät myöskään kykene avustamaan käyttäjiään tietokantahaussa. Portaali on tähän tarkoitukseen rakennettu sovellus; aika näyttää miten tehokkaasti se hommansa hoitaa. Tiedonhakijan kannalta tilanne on 15 vuodessa muuttunut oleellisesti; siinä missä aiemmin haasteena oli oppia järjestelmien käyttöliittymät (jotka olivat komentopohjaisia ja aina toisistaan poikkeavia), nyt pitäisi tuntea tietokantojen hakutermit. Portaali piilottaa syntaksierot, mutta semantiikalle sekään ei – ainakaan toistaiseksi – mahda juuri mitään. Tällä sektorilla kirjastojen kannattaa liittoutua Semantic Web –hankkeiden kanssa. Tämän alan kesälukemiseksi suosittelen MuseoSuomi –hankkeen aineistoja (http://www.cs.helsinki.fi/group/seco/museosuomi/).

 


Tietolinja 01/2004

Juha Hakala, kehittämisjohtaja
Helsingin yliopiston kirjasto / Tietokantapalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: juha.hakala osoitteessa @helsinki.fi