Tietolinja

Tietolinja
01/2006

MetaIndex - Nellin uusi työkalu

Ari Rouvari ja Ere Maijala
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20061304


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


MetaIndex on Nelli-tiedonhakuportaalin uusin työkalu, joka otettiin käyttöön vuoden 2006 alussa. Se on MetaLib-ohjelmistoon integroitu laajennusosa, jolla voi luoda virtuaalikokoelmia OAI-PMH -protokollan avulla (Open Archives Initiative Protocol for Metadata Harvesting).

 

Mitä sillä tehdään

MetaIndexillä haravoidaan kokoelmia tai osakokoelmia OAI-PMH -yhteensopivista tietokannoista tai järjestelmistä Nelli-tiedonhakuportaaliin. Se toimii toisin kuin monihaku, jossa haut tehdään aina juuri silloin kun asiakas kirjoittaa hakulauseen. Haravointi voidaan tehdä esim. yöllä hiljaiseen aikaan, eikä sen tarvitse olla nopea. MetaIndexillä kerätään kokoelmien viitetiedot Nelli-palvelimelle, ja haut kohdistuvat kyseisiin viitteisiin. Nellin käyttäjä ei kuitenkaan näe eroa monihaun kohdetietokantojen tai indeksikokoelmien käytössä.

MetaIndexin pääasiallinen käyttökohde on ainakin aluksi haravoida Nelliin sellaisia kokoelmia, joita ei ole mahdollista saavuttaa muuten, eli kokoelmiin, joissa ei ole standardia hakurajapintaa (Z39.50, SRU) tai niiden haut eivät toimi kunnolla. Näistä esimerkkeinä Lundin yliopiston DOAJ – Directory of Open Access Journals ja E-LIS – E-prints in Library and Information Science. Internetissä on Open Archives Initiative -organisaation sivusto (http://www.openarchives.org/), johon voi rekisteröidä tietokantoja, joita voi indeksoida OAI-PMH –protokollaa hyödyntämällä. Siellä on rekisteröityneitä avoimia OAI-arkistoja jo yli neljä sataa, mutta Suomesta ainoastaan teknillisen korkeakoulun julkaisuarkisto.

Kokonaisten kokoelmien indeksoinnin lisäksi indeksoimme osakokoelmia silloin kuin niiden tehokas erittely kirjastotietokannoista on muulla tavoin vaikeaa. Esimerkiksi yliopistojen ja ammattikorkeakoulujen opinnäytteitä on jo indeksoitu. Erikoiskokoelmien, kuten musiikkikokoelmien, indeksoimista on pidetty tärkeänä. MetaIndexillä voidaan haravoida eri tietokannoista viitteitä ja luoda niistä yksi kokoelma, esimerkiksi kaikki Suomessa julkaistut väitöskirjat. Tällä hetkellä Nellissä on noin 20 indeksiä ja lisää tulee.

Toinen mahdollinen Metaindexin käyttökohde on yliopistokirjastojen kokoelmakarttahankkeen käyttöliittymän ja hakuosion toteuttaminen. Tarkoituksena on kokoelmien kartoituksen ja arvioinnin avulla saada kokonaiskuva aineistotarjonnan vahvuuksista ja heikkouksista sekä tunnistaa aihealoittain hyvät tietoresurssit ja -aineistot. Kokoelmat kuvaillaan Doriaan. Haluttaessa kuvailut voi viedä Nelli-portaaliin. Ne kokoelmat, jotka on luetteloitu kirjastojärjestelmiin, voitaisiin poimia MetaIndexin avulla, jolloin asiakkaat voisivat kohdentaa haut kyseisiin kokoelmiin.

 

Lisenssistä ja tekniikasta

MetaIndex hankittiin vuoden 2005 lopussa kansalliseen käyttöön yliopisto- ja ammattikorkeakoulukirjastoille sekä yleisille kirjastoille. Lisenssin puitteissa jokainen Nelli-kirjasto voisi itse luoda kokoelmia MetaIndexillä. Indeksien luonti käyttää aimo annoksen Nelli-palvelimen laskentatehosta, joten ne pitää tehdä aikaan, jolloin palvelimella ei ole muita paljon kuormittavia tehtäviä. Siksi olemme toistaiseksi päättäneet, että indeksejä tehdään vain keskitetysti Nelli-toimistossa. Samalla tulee varmistettua, että ei tehdä turhaan päällekkäisiä indeksejä. Riittää, että tehdään vain yksi indeksi ja kaikki Nelli-kirjastot voivat kopioida sen kansallisesta Nelli-tietämyskannasta omaan Nelli-portaaliinsa, aivan kuten muutkin Nelli-tietokannat.

Asiakkaat voivat kuitenkin tilata Nelli-toimistosta haluamiaan aineistoja. Voyager-kirjastojärjestelmään ei ole implementoitu indeksoinnissa tarvittavaa OAI-PMH -protokollaa, mutta jokainen kirjasto voi asentaa omaan Voyageriinsa Nelli-toimiston tekemän OAI-PMH -ohjelman. Asennusohjeet ja tuen saa Nelli-toimistosta.

OAI-PMH on varsin yksinkertainen protokolla. Se käyttää HTTP-protokollaa, jossa haravointipyyntö lähetetään URL:ssa ja vastauksena saadaan XML:ää. Yksinkertaisin mahdollinen haravointipyyntö on "anna kaikki viitteet". Pyyntöä voidaan tarkentaa kohdistamalla se tiettyyn "settiin" ja antamalla aikarajaus. Pyytäjän on myös kerrottava, missä formaatissa tietueet halutaan. Dublin Core ja MARCXML ovat yleisiä tietuemuotoja, ja ainakin Dublin Corea pitäisi jokaisen OAI-PMH –yhteensopivan arkiston pystyä palauttamaan. MARCXML on Nelli-portaalin kanssa suositeltava muoto, koska Nellissä tietueet ovat sisäisesti MARC21-muodossa.

Varsinaista protokollaa monimutkaisempi asia on se, miten erilaiset "setit" eli kokoelmat määritellään. Voyager-kannoissa kokoelmia voidaan tehdä esim. sijainnin tai keyword-hakujen perusteella. Joissain tapauksissa säännöt ovat niin monimutkaiset, että kaikki tietokannan viitteet joudutaan käymään läpi yksitellen. Tämä ei kuitenkaan välttämättä haittaa, sillä operaatio täytyy tehdä vain kerran. Myöhemmin päivitykset voidaan tehdä edellisen haravoinnin päivämäärästä alkaen.

Toistaiseksi olemme erittäin tyytyväisiä MetaIndexiin ja uskomme että OAI-PMH tulee olemaan yhtä vakuuttava kirjastotyökalu kuin esimerkiksi OpenURL ja hakuprotokollat. MetaIndex on askel uuteen kirjastoaikakauteen.

 

"Ere, eiks nää nyt oo jo vähän liian painavia haravoitaviks?"
Artikkelin kirjoittajat käytännön ongelmien äärellä.


Tietolinja 01/2006

Ari Rouvari, pääsuunnittelija
Helsingin yliopiston kirjasto / Kansallisen elektronisen kirjaston palvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: ari.rouvari(at)helsinki.fi

Ere Maijala, sovellussuunnittelija
Helsingin yliopiston kirjasto / Kansallisen elektronisen kirjaston palvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: ere.maijala(at)helsinki.fi