Tietolinja

Tietolinja
01/2007

Avoimet julkaisuarkistot 2007

Matkaraportti Open Repositories 2007 -konferenssista

Samu Viita
Kansalliskirjasto

Artikkelin pysyvä osoite on: http://urn.fi/URN:NBN:fi-fe20071268


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Tammikuun lopulla järjestetty Open Repositories 2007 konferenssi keräsi reilut 350 osanottajaa vaihtamaan alan viimeisimpiä kuulumisia. Konferenssi keskittyi avoimella lähdekoodilla toimiviin julkaisuarkistoratkaisuihin. Esitysten joukkoon mahtui myös pitkäaikaissäilytystä, oppimisympäristöjä ja muita teemaan läheisesti liittyviä aiheita käsitteleviä esityksiä. Vuosittainen tapahtuma järjestettiin nyt toista kertaa ja paikaksi oli valittu San Antonio Texasissa.

Ensimmäiset puolitoista päivää koostui käyttäjäryhmätilaisuuksista kolmelle julkaisuarkistoalustalle DSpacelle, EPrintsille ja Fedoralle. Valintakriteerinä alustoille oli laajan käyttäjäkunnan lisäksi niiden toteutus avoimella lähdekoodilla. Konferenssin loppuajan ohjelma oli kaikille yhteinen. Se koostui esitelmistä ja posteritilaisuudesta. Niissä pureuduttiin niin käytännön ratkaisuihin kuin teoreettisempiinkin aiheisiin. Jutun kirjoittaja osallistui DSpace-käyttäjäryhmän tilaisuuksiin, joihin artikkelikin keskittyy.

 

DSpace-hallinnon tilannekatsaus

DSpace käyttäjäryhmätilaisuuden aloitti MacKenzie Smith katsauksellaan DSpacen hallinnon tulevaisuudensuunnitelmiin. Hän totesi DSpacella olevan tällä hetkellä 15 pääohjelmoijaa ja ohjelmiston keskittyvän edelleen Open Access -julkaisemiseen ja pitkäaikaissäilytykseen. Smith totesi DSpacen suosion jatkavan kasvuaan, jota on viimeaikoina ollut havaittavissa erityisesti Amerikan ja Euroopan ulkopuolella. Lisääntyneen käyttäjämäärän johdosta järjestetään yhä enemmän myös kansallisia ja kielialueellisia käyttäjäryhmätapahtumia, esimerkiksi espanjankielisillä on vuotuinen kokoontuminen. Myös tutkimuksen määrä yliopistoissa ja tutkimuslaitoksissa (mm. Biomed, AePIC ja HP) on kasvussa.

Karttunut kokemus on osoittanut, että kasvu ei valitettavasti ole pelkästään positiivinen asia avoimen lähdekoodin maailmassa: Hallintoryhmän päähuolena on projektin kasassa pitäminen ja yhteisten pelisääntöjen puute. Kukaan ei puhu koko yhteisön puolesta, sanele sääntöjä tai ohjaa kehitystyötä. Koordinointi ja selkeä tekninen suunta puuttuu. DSpace-käyttäjät ovat ahkeria tekemään omia muutoksia yhteisiin, mutta myös omiin tarpeisiin. Tästä koituu hitaasti kehittyvä ongelma: Kehitys haarautuu erillisille poluille ja yhteinen visio tulevaisuuden tuotteesta hämärtyy. Kuinka pitää projekti kasassa, kääntää innostunut tekeminen ja ilmainen työpanos kaikkien hyödyksi?

Näistä ongelmista huolestuneina ja viisastuneina hallintoa on tiukennettu vastaamaan kasvavan tekijäyhteisön haasteisiin. Viime marraskuussa on perustettu neuvoa antava johtokunta. Sen tehtävänä on hallinnoida ja tukea yhteisöä ja sen älyllistä varallisuutta, ohjata teknologisen suunnitelman toteuttamista ja rakentaa yhteyksiä yhteisön ja bisnesmaailman välillä. Lähitulevaisuuden konkreettisia toimenpiteitä ovat rahoituksen hakeminen yritysmaailman keskuudesta sekä teknologisen uudelleenkehityksen koordinointi ja täytäntöönpano. Lisäksi tullaan perustamaan teknillisiin yksityiskohtiin keskittyvä ryhmä. Olemassa olevan tuen tarjoaminen jatkuu ennallaan Wikin, postituslistojen ja muiden jo entuudestaan käytettyjen kanavien kautta.

 

DSpacen tulevasta arkkitehtuurista

John Mark Ockerbloom jatkoi DSpacen lähitulevaisuuden suunnitelmista kertomista, mutta hänen esityksensä keskittyi teknisempiin asioihin. Hän toimii 12-päisen, uutta arkkitehtuuria suunnittelevan ryhmän johtajana. Ockerbloom nosti myös esiin käyttäjien määrän kasvun ja heidän aktiivisen roolinsa kehitystyössä: Erittäin monet kustomoivat metadataa, puolet tekee merkittäviä muutoksia lähdekoodiin ja joka neljäs muuttaa tietokantaa.

Arkkitehtuuri on päätetty uusia perusteellisesti. Tähän löytyy useita perusteluja: Uudet sovellukset ja palvelut kehittyvät, DSpacen tulee pysyä kehityksen mukana. Julkaisuarkistot varttuvat ja sisällön määrä kasvaa, tämän myötä suorituskykyvaatimuksetkin. Lisäksi edellä mainittua "ad hoc" -suunnittelua lähdekoodia muuttamalla tulee ohjata arkkitehtuuria uudistamalla, jotta ei päädyttäisi ongelmiin esimerkiksi päivitysten yhteydessä. Arkkitehtuurin suunnittelussa tulee asettaa prioriteetteja, jotta yhteisön työpanoksesta aikaansaatua kehitystä voitaisiin ohjata turvallisille vesille. Sovelluksen kehitystyö tulee tehdä helpommaksi, jotta kustomointi ja liittäminen osaksi suurempia kokonaisuuksia helpottuisi. Ockerbloom tähdensikin, että DSpace ei ole saari, vaan sitä tulee olla mahdollista käyttää myös osana suurempaa järjestelmää.

DSpace 2. versiosta keskustelu aloitettiin jo vuonna 2004 ja kesällä 2006 päätettiin uudistaa vanha arkkitehtuuri perusteellisesti. Tämä keskustelu on tapahtunut pääosin yhteisön tuttuja kanavia pitkin, kuten Wikissä ja postituslistoilla. Yleisesti yhteisön taholta on tullut viestiä, että DSpacelta toivotaan parempaa modulaarisuutta, kustomoitavampaa käyttöliittymää ja parempaa kompleksisten objektien hallintaa. Lisäksi "arkistoatomille", DSpace-termistöllä "itemille" (yksittäinen tallennusobjekti, joka sisältää metadatan ja siihen liittyvät tiedostot) kaivataan versiointia.

Tämän seurauksena ryhmä on listannut periaatteita DSpace 2 version suunnittelemisen ja kehittämisen tueksi:

  1. Avoimeen lähdekoodiin perustuva ohjelmisto digitaalisten arkistojen rakentamiseen ja perustamiseen.

  2. Vapaasti käytettävissä.
    a) Vältetään yksinoikeuksia ja patentteja.
    b) Voi silti tukea suljetun lähdekoodin sovelluksia (esimerkkinä Oracle -tietokanta).

  3. Sovelluksen ydin irrallinen, vakaa ja käyttöjärjestelmäneutraali.

  4. Helposti muokattavissa. Tulee silti säilyttää hyllytavaramainen "avaimet käteen" -luonteensa. Tätä ominaisuutta pidetään tärkeänä vahvuutena.

  5. Tukee jatkossakin olemassa olevia standardeja aina kun mahdollista ja järkevää. Integrointi muiden avoimeen lähdekoodiin perustuvien ohjelmien kanssa tulee tehdä helpommaksi.

  6. Versiojulkaisujen tulee olla mahdollisimman vähän häiritseviä.

  7. Tulee tukea "pakostrategiaa" sisällön siirtämiseksi muihin järjestelmiin.

  8. Sovellus jatkaa kehittymistään.

Ockerbloom kertoi myös hieman DSpace 2:een luvatuista konkreettisimmista suunnitelmista. Tietomalliin ja sisältöön tehdään parannuksia: Itemillä voi jatkossa olla useampi metadatakaavio käytössään ja niiden ei-semanttisten muutosten versiointia tullaan tukemaan. Tällaisia muutoksia ovat esimerkiksi tiedostojen formaattimuunnokset ja metadatan korjaukset. Itemeiden organisointia nykyisellään käytössä olevasta yhteisö/kokoelma organisointitavasta tullaan myös yleistämään. Lisäksi muitakin kuin handle-pohjaisia tunnisteita tullaan tukemaan. Nykyisin DSpace tukee vain handle-järjestelmää. Käyttöliittymän osalta ollaan siirtymässä Manakiniin, josta tarkemmin seuraavassa esityksessä.

Aikataulua ei lyöty tarkkaan lukkoon. Toimivaa DSpace 2 ydintä lupailtiin varovaisesti kuitenkin kahden vuoden päähän. DSpace 1:n versiot jatkavat kuitenkin kehittymistään 2.n rinnalla.

 

Manakin 1.0 julkaistiin

Scott Phillips esitteli DSpaceen liitettävää Manakinia, joka julkaistiin juuri ennen konferenssia. Se mahdollistaa joustavamman käyttöliittymäsuunnittelun kuin kiinteästi sovelluslogiikkaan sidoksissa oleva oletuskäyttöliittymä. Manakinin avulla voidaan luoda myös yhteisö-, kokoelma- tai toimintaspesifejä käyttöliittymiä. Esimerkiksi eri yliopistolaitokset voivat käyttää toisistaan poikkeavia käyttöliittymiä tai kuva-arkistolle voidaan luoda erilainen selailutoiminto kuin artikkeleille.

Manakin perustuu XML-pohjaisen rajapinnan käyttöön, joka välittää DSpacen kulloisenkin tilan Manakinin prosessoitavaksi. Tila tarkoittaa tässä yhteydessä käyttäjän interaktiosta johtuvia muutoksia, joihin käyttöliittymän tulee reagoida. Tämä XML:llä kuvattu tila esitetään loppukäyttäjälle XSL-muunnosten, CSS-tyylitiedostojen, yms. Web-tekniikoiden avulla. Manakin on rajapinnan ansiosta täysin irrallinen komponentti, vanhaa JSP-tekniikalla toimivan käyttöliittymän käyttöä voidaan jatkaa uuden rinnalla.

Phillips totesi, että Manakiniin pohjautuvia käyttöliittymiä voidaan toteuttaa kolmella eri vaativuustasolla. Yksinkertaisimmat muutokset tehdään mukana tulevien valmiiden käyttöliittymien CSS-tyylitiedostoja muokkaamalla. Toisen vaativuustason muutokset edellyttävät tyylitiedostojen muokkaamisen lisäksi XSL-muunnoskielen hallintaa. Alex Maslov demonstroi omassa esityksessään CSS-tyylitystä ja kokonaan uuden käyttöliittymän, eli teeman luontia. Teeman luonnissa XSL:llä muunnetaan XML-rajapinnan välittämää tilainformaatiota selaimen ymmärtämään muotoon. Tällöin vain XML-rajapinnan informaatio ja mielikuvitus rajoittavat halutun käyttöliittymän rakentamista. Maslov kuitenkin painotti, että teeman luonti on kuin mikä tahansa Web-suunnitteluprojekti: Se vaatii Web-tekniikoiden osaamista.

Vaativimman tason kehitystyötä kutsutaan "aspektiohjelmoinniksi" ja sillä vaikutetaan toimintalogiikkaan. Aspektit tarkoittavat toimintakokonaisuuksia, esimerkiksi selaus/haku-toiminto ja käyttäjien hallinta. Aspektiohjelmoinnilla vaikutetaan siihen, mitä tietoja XML-rajapinta antaa DSpacen tilasta. Phillips vertasi aspekteja Lego-palikoihin, jotka ovat palikoiden sijasta toimintoja. Toiminnallisuuksia voi koota ja purkaa kuten palikoita. Voidaan esimerkiksi poistaa käyttäjienhallinta-aspekti, jonka jälkeen Manakin-käyttöliittymä jättää kaikki käyttäjänhallintaan liittyvät seikat näyttämättä. Mitään häiriötä käyttöliittymän toiminnalle tästä ei koidu. Tämä on hyvä esimerkki korkeasta modulaarisuuden tasosta. Aspektiohjelmointi edellyttää Java- ja Cocoon-tekniikoiden hallintaa. "Legopalikkamainen" ohjelmointi juontuu Cocoon-ohjelmoinnin ideasta.

Adam Michael antoi käytännön esimerkin Manakinin käytöstä Texas A&M yliopistossa. Heillä on vanhoja amerikkalaisia karttakääröjä sisältävä arkisto. Karttojen selailu toteutettiin aakkosellisen listan sijaan visuaalisesti maailmankartan avulla: Karttakääröt on ripoteltuna maailmankartalle sen mukaan, mitä alueita ne kuvaavat. Yhtä aluetta kuvaa lähes poikkeuksetta useampi karttakäärö. Tällainen yhtä aluetta kuvaava kokonaisuus vastaa DSpace termillä yhtä itemiä. Toiminto toteutettiin integroimalla Manakinilla rakennettuun käyttöliittymään Yahoo-maps -karttatoiminto. Koska aluetta kuvaavalla itemillä on useampi karttakäärökuva, Manakinia hyödynnettiin myös näyttämällä itemin sisältö kuvagallerian tapaan. Ratkaisu näytti varsin toimivalta.

Monet tuntuivat kuulevan Manakinista ensimmäistä kertaa ja se sai usealta taholta innostuneen vastaanoton. Joissain DSpace-käyttäjäryhmän esityksissä nähtiin Manakinia jo kuitenkin käytetyn, vaikka se julkaistiinkin virallisesti vasta konferenssissa.

 

Avoin julkaisuarkisto, entä lähdekoodi?

Virginian yliopiston psykologian professori James Hilton piti konferenssin avauspuheenvuoron. Hilton nostatti henkeä toteamalla, että avoimilla julkaisuarkistoilla on suuri vaikutus tieteen demokratisoitumisessa. Hän piti luontevana valintana avointa lähdekoodia avoimille julkaisuarkistoille ja myös aikaa kypsänä siihen. Avoin lähdekoodikulttuuri on kehittynyt riittävästi. Hilton kuitenkin painotti organisoidun ja tiukan yhteistyön merkitystä ja oikeiden yhteistyökumppaneiden valintaa. Hän piti ongelmana sitä, että yhteisöissä eri kehittäjätahot tekevät usein kehitystyötä vain omia tarpeitaan ajatellen, kokonaisuudesta välittämättä. Yhteistyön tulisi olla aitoa, jotta avoimen lähdekoodin ohjelmistojen vahvuudet saataisiin parhaiten esiin. Tämä huomio osuikin yhteen DSpacen hallinnon katsauksen havaintoihin. Hilton halusi myös korjata usein esiintyvän väärinymmärryksen: Avoimen lähdekoodin järjestelmä ei tarkoita ilmaista järjestelmää. Hän vertasi sitä adoptoituun koiranpentuun: Hankintakustannuksia ei ole, mutta se vaatii kasvatusta ja hoitoa. Ohjelman kehitys ja ylläpito vaatii työvoimakustannuksia.

Tärkeimmäksi ominaisuudeksi avoimen lähdekoodin ohjelmistoissa Hilton nosti "kohtalon kontrolloimisen". Tällainen ominaisuus puuttuu suljettuun lähdekoodiin tai kaupallisuuteen perustuvista ohjelmista: Ohjelmiston kehittämis- ja korjausprioriteetit, konkurssit ja omistussuhteiden vaihdokset sanelevat millainen ohjelmisto on tulevaisuudessa, jos sitä ylipäätään on olemassa. Ohjelmiston kehityksen suuntaan ja pitkän aikavälin olemassaoloon ei lisenssin omistajalla ole paljoakaan vaikutusmahdollisuuksia. Hilton mainitsi akateemisten instituutioiden huomanneen tämän ongelman mm. Oraclen ja Blackboard-ohjelmien asiakkuuksien yhteydessä.

Hilton kertoi lopuksi oman näkemyksensä käyttäjäyhteisöjen eroista kolmen julkaisuarkistosovelluksen osalta: DSpace käyttäjäryhmän jäsenet ovat usein myös kehittämässä järjestelmää, kun taas EPrintsillä kehittäjät ja käyttäjät ovat selkeästi eri porukkaa. Fedora on jotain näiden kahden välimaastosta.

 

Muita poimintoja esityksistä

Kolmen ja puolen päivän aikana sai kuvaa siitä, kuinka laaja-alaisesti julkaisuarkistoja maailmalla sovelletaan ja tutkitaan. Mainitsenpa tässä lopuksi muutaman.

HP-labs tekee tutkimusyhteistyötä Kiinan opetusministeriön ja muutaman kiinalaisen yliopiston kanssa. PF-DSpace -projektissa kiinalaisten digitaalisten museoiden kesken muodostetaan yhteys käyttäen paranneltua OAI-PMH -haravointitekniikkaa. Sitä on laajennettu "kaverilistoilla" ja valikoivilla kyselyillä. Kaverilistatoiminnolla DSpace-arkistolta voi kysyä, mitä muita arkistoja se tietää. Tällä tekniikalla voidaan haravoida rekursiivisesti tietoa suuresta määrästä arkistoja ja tieto uusista arkistoista päivittyy nopeasti. Valikoivilla OAI-PMH-haravoinneilla voidaan rajata tulosta jonkin metadatakentän tai avainsanan mukaan. Voidaan siis muodostaa esimerkiksi kokoelma, joka sisältää kaikki kiinalaisissa digitaalisissa museoissa olevien patsaiden kuvat. PF-DSpace projektiin on ryhdytty hyvistä kokemuksista rohkaistuneina tutkimusryhmän toisessa projektissa, DM-DSpacessa. Tämäkin projekti on vielä kesken, mutta sen valmistuttua on tarkoitus haravoida sekä metadata, että varsinaiset tiedostot noin sadasta kiinalaisesta museosta keskitettyyn rekisteriin. Jokaisella museolla on noin 2 Terabittiä sisältöä, joten projekti on suhteellisen mittava.

Scott Yeadon esitteli Australian kansalliskirjaston ratkaisuja, joiden filosofiana on mahdollisimman suuri riippumattomuus tietystä tekniikasta. Yeadon esitteli Fedoran ja Dspacen välistä tiedonsiirtoa METS -pohjaisten SIP ja DIP -pakettien avulla. Hän esitteli myös kuinka he olivat irrottaneet tiedon syöttö- ja julkaisemisprosessin liittyviä toimintoja julkaisuarkistosta. Nämä toiminnot hoidettiin Open Journal Systemsillä, josta tiedot siirrettiin METS-pakettien avulla joko Fedoraan tai DSpaceen. Julkaisuarkistoa käytetään heillä vain tietojen selailu- ja OAI-PMH-haravointitarkoituksessa. Yeadon esitteli myös Manakin-pohjaista käyttöliittymää, joka oli integroitu Google-Earth –ohjelman kanssa. Siinä arkiston sijaintitietoa sisältävät tietueet sijoittuivat Google Earth -ohjelmaan klikattaviksi objekteiksi.

Atsuko Takao esitteli Japanin pitkäikäisintä julkaisuarkisto Curatoria. Siinä mieleenpainuvaa oli avoin julkaisupolitiikka. Curator hyväksyy arkistoonsa lähes mitä tahansa materiaalia. Tällä hetkellä siellä on mm. tieteellisiä lehtiä, kuvagallerioita, satelliittikuvia ja Toyotan teollista suunnittelua koskevia dokumentteja. Julkaisuarkisto on itse rakennettu, mutta Japaninkielen indeksointiin käytetään Scirus-hakukonetta.

Opettajille varmasti mielenkiintoinen sovellus on Coloradon yliopistossa kehitetty "opetuslaatikko", jota Huda Khan ja Keith Maull esittelivät. Sovelluksen avulla opettajat voivat kerätä ja hallinnoida opetusmateriaalia, muistiinpanoja, tuntisuunnitelmia ja opiskelijatietoja. Opetustyökalun kehittämisen motivaationa on opettajien työn helpottamisen lisäksi julkaisuarkistojen ja muiden Internet-resurssien hyödyntäminen luokkaopetuksessa.

Carl Lagoze esittteli OAI-PMH protokollan idean pohjalta kehiteltävää OAI-ORE protokollaa. OAI-PMH:n ollessa metadatakeskeinen protokolla, OAI-ORE on resurssikeskeinen. Sillä ei ole tarkoitusta korvata OAI-PMH:ta. Uusi protokolla on vasta ideointivaiheessa. Protokollan on valmistuttuaan tarkoitus kyetä vaihtamaan arkistojen välillä mitä tahansa dataa. Normaalin tekstin lisäksi sillä voidaan välittää esimerkiksi mediatyyppejä, ohjelmia, simulaatioita ja erityyppisistä tiedostoista koostettuja komposiittirakenteita. Protokolla mahdollistaa paljon uusia toimintoja. Se mm. tehostaa vapaiden resurssien uusiokäyttömahdollisuuksia, kun yhtä resurssia voidaan esittää eri tavalla eri palveluissa ja konteksteissa. Se on myös hyvä keino varmistaa resursseja tai jaella niitä pitkäaikaissäilytykseen. Sen avulla voidaan myös syöttää järjestelmään monimutkaisiakin komposiittiobjekteja internetin välityksellä. Kesken esityksen Lagozen puhelin soi yllättäen. Soittaja oli kuulemma Herbert van de Sompel joka on toinen projektin isistä.

Heather Joseph kertoi SPARC-koalition Author Addendum palvelusta. Se on tarkoitettu oikeusavuksi tekijälle julkaisusopimusta tieteellisen lehden kanssa solmittaessa. Palvelua käyttäen tekijä voi säilyttää oikeutensa avoimissa julkaisuarkistoissa julkaisemiseen. Käytännössä tämä tapahtuu yksinkertaisella, verkostakin saatavilla olevalla lomakkeella, joka liitetään julkaisusopimuksen osaksi.

Joseph motivoi tallettamaan julkaisuarkistoon: Veronmaksajat maksavat tutkijoiden palkan ja rahoittavat tutkimuksen, jonka tulokset ovat useimmiten artikkelien muodossa. Tutkimusten tulosten pitäisi myös olla veronmaksajien saatavilla. Rikkaimmatkin tutkimuslaitokset pääsevät käsiksi vain 70% vertaisarvioiduista julkaisuista, joihin he haluaisivat tutkijoidensa pääsevän käsiksi. Mikä mahtaa olla tilanne köyhempien maiden kohdalla?

 

Lopuksi

Konferenssin teema "Achieving Interoperability in an Open World", tuntui toteutuvan konferenssin hengen osalta hyvin: Eri käyttäjäryhmän jäsenet vaihtoivat ahkerasti ideoita ja kokemuksiaan ristiin esitysten lisäksi myös tauoilla ja iltaisin järjestetyissä vapaamuotoisissa tilaisuuksissa. Käyttäjäryhmittäistä kuppikuntaisuutta ei ollut erityisesti havaittavissa.

Moni merkittävä esitys jäi vailla arvoistansa huomiota tässä artikkelissa. Näinhän kävi myös Tim Berners-Leen esitykselle samoissa konferenssitiloissa vuonna 1991. Hän esitteli silloin uutta kehitelmäänsä, World Wide Webiä, joka hyväksyttiin vain posteriksi.

Open Repositories 2008 tullaan järjestämään Southamptonissa, jossa keskustelu varmasti jatkuu.

 

Lisätietoa

 


Tietolinja 01/2007

Samu Viita, atk-suunnittelija
Kansalliskirjasto / Kirjastoverkkopalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: samu.viita(at)helsinki.fi