Tietolinja

Tietolinja
1/1998


PÄÄKIRJOITUS

ARTIKKELIT


VIERASKYNÄ

UUTISIA,
AJANKOHTAISTA

Elektronisten julkaisujen identifiointi

Juha Hakala

Versio 1.0
5.5.1998

Artikkelin uusin versio osoitteessa http://www.lib.helsinki.fi/meta/id.html.


Sisällysluettelo
1. Johdanto
2. DOI
3. ISBN
4. ISSN
5. SICI
6. NBN
7. URN
8. Tunnusten tallennus ja käyttö

1. Johdanto

Kirjastot, kustantajat ja kirjakaupat ovat jo pitkään käyttäneet erilaisia tunnusjärjestelmiä painettujen julkaisujen identifiointiin. ISBN (International Standard Book Number) ja ISSN (International Standard Serial Number) ovat mahdollistaneet muun muassa elektronisten tilausjärjestelmien luonnin ja siten helpottaneet oleellisesti painettujen julkaisujen hankintaprosessia. Kirjastojen viitetietokannoissa nämä tunnukset mahdollistavat paitsi hyvät hakuominaisuudet, myös mahdollisuuden niin sanottuun tuplakontrolliin eli samaa julkaisua koskevien viitteiden yhdistämiseen, mikä on tärkeä piirre etenkin yhteisluetteloissa.

Elektronisten julkaisujen identifiointi on toistaiseksi hoidettu huonommin kuin painettujen. Niin kauan kun verkkojulkaisuja ei myydä ja osteta suuria määriä, tilannetta on siedetty. Odotettavissa oleva verkon kaupallistuminen pakottaa kustantajat ottamaan identifikaatiotunnukset käyttöön kaikessa myytävässä aineistossa nopeasti. Kirjastojen kannalta julkaisujen hankinnan helpottuminen on tietenkin etu, mutta oleellista on aineiston haettavuuden paraneminen ja arkistoimisen helpottuminen.

Perinteisiä tunnusjärjestelmiä kuten esimerkiksi ISBN:ää voidaan periaatteessa hyödyntää elektronisen aineiston identitioinnissa, mutta niiden käytössä on omat rajoituksensa. Merkittävin ongelma on se, että tunnusjärjestelmä ei välttämättä skaalaudu siten, että kaikille nykyisille ja tuleville Internet-tunnuksille voitaisiin antaa ID-tunnus asianomaisesta järjestelmästä. Esimerkiksi ISBN-järjestelmässä kustantajille varattu alue on niin pieni, että jokaiselle Internet-kustantajalle ei voida antaa omaa kustantajatunnusta. Toisaalta tunnuksien jakelua ei välttämättä voida automatisoida kokonaan, jolloin toiminnan laajentaminen painetusta materiaalista verkkojulkaisuihin edellyttäisi paljon lisää työvoimaa jakeluorganisaatiolle, eli Suomessa ISBN:n ja ISSN:n tapauksessa kansalliskirjastolle.

Internet-verkossa elektroniset julkaisut on toistaiseksi identifioitu URL-tunnuksen avulla. URL ilmaisee kuitenkin vain dokumentin osoitteen (esimerkiksi www.lib.helsinki.fi/meta/index.html) sekä protokollan, jota käyttäen asianomaisessa osoitteessa olevan dokumentin voi noutaa (esimerkiksi http). Samassa osoitteessa oleva dokumentti voi muuttua sisällöltään oleellisesti, ja sama dokumentti voi löytyä useista eri osoitteista tai siirtyä URL-osoitteesta toiseen. Suuri osa WWW-indeksien kuten Alta Vistan tuntemista dokumenteista on kadonnut, eikä käyttäjällä ole mitään hyvää keinoa löytää aineiston uutta sijaintipaikkaa. WWW-indekseistä voi olla apua, jos dokumentti oli indeksoitu niihin ja jos muistaa riittävän tarkan hakutermin. ID-tunnus, sitten kun sellainen on olemassa, on sellainen.

Verkossa olevan elektronisen julkaisun identifikaatiotunnuksen hyödyntäminen WWW-indekseissä edellyttää sitä, että tunnus tallennetaan dokumentin sisään siten koodattuna, että indeksointisovellus löytää tunnuksen helposti. Esimerkiksi HTML-dokumentissa voidaan vaivattomasti käyttää nimiön (HEAD) META-kenttää tästä lisää tuonnempana -, mutta monet muut dokumenttiformaatit eivät ainakaan toistaiseksi tarjoa mahdollisuutta identifikaatiotunnuksen tallentamiseen julkaisun nimiöön.

Muutaman vuoden sisällä Internetiin rakennetaan resoluutiopalvelu, jonka avulla käyttäjät voivat julkaisun ID-tunnuksen perusteella löytää sen viitetiedot ja/tai ajantasaisen URL-tunnuksen (tunnukset) tai saada välittömästi itse julkaisun. Palvelu tulee olemaan analoginen Domain Name Service järjestelmälle, joka selvittää koneen Internet-nimen perusteella sen numeerisen IP-osoitteen. Resoluutiopalvelusta on sitä enemmän hyötyä, mitä enemmän verkossa on dokumentteja joissa on identifikaatiotunnus. Siksi elektronisten julkaisujen ID-tunnusten jakelu kannattaa aloittaa mahdollisimman nopeasti. Kansalliskirjasto pyrkii edesauttamaan tätä kehitystä laajentamalla kansallisbibliografian ID-numeron käyttöaluetta verkkojulkaisuihin.

Tässä raportissa tarkastellaan eri tunnusjärjestelmien soveltuvuutta elektronisten julkaisujen identifiointiin. Selvitys koskee toisaalta teknistä hyödynnettävyyttä, toisaalta tunnuksen jakelukäytänteitä. Kohteeksi on valittu seuraavat järjestelmät:

Digital Object Identifier (DOI)

International Standard Book Number (ISBN)

International Standard Serial Number (ISSN)

Serial Item and Contribution Identifier (SICI)

Kansallisbibliografian ID-numero (NBN, sanoista National Bibliography Number)

Uniform Resource Name (URN)

Analyysi perustuu soveltuvin osin EU:n Biblink-projektin julkaisemaan sama aihepiiriä koskevaan raporttiin, jonka toistaiseksi vielä keskeneräinen päivitetty versio on saatavissa Internet-verkosta osoitteessa http://www.lib.helsinki.fi/meta/biblink.rtf.

2. DOI

Digital Object Identifier-järjestelmää (http://www.doi.org) kehittävät Corporation for National Research Initiatives eli CNRI (http://www.cnri.reston.va.us) ja R. R. Bowker. DOI-hanketta koordinoi International DOI Foundationin (http://www.doi.org/DOI-Found-Recruit.html), jonka jäseniksi kirjastotkin ovat tervetulleita, tosin vain järjestöjensä välityksellä.

DOI-projekti alkoi syyskuussa 1996 ja sen on tarkoitus kestää viisi vuotta. Ensimmäiset toimivat tuotantojärjestelmät esiteltiin Frankfurtin kirjamessuilla lokakuussa 1997. Teknisesti DOI perustuu CNRI:n kehittämään Handle systemiin (http://www.handle.net/), joka on yhteensopiva URN-tunnusten kanssa. Mitä tahansa DOI-tunnusta voi siis käyttää myös URN-tunnuksena. Mikä tahansa URN ei kelpaa DOI-tunnukseksi, koska Handle system on vain yksi tapa toteuttaa URN->URL -resoluutio.

DOI koostuu kahdesta osasta: kustantajan ID-tunnuksesta sekä julkaisijan antamasta teoksen ID-tunnuksesta, joita erottaa kauttaviiva. Esimerkiksi DOI

10.153/34571

koostuu kustantajan ID-tunnuksesta "10.153" ja teoksen ID-tunnuksesta "34571". Kustantajatunnuksia jakaa tätä kirjoitettaessa vain DOI Agency. Jakelun keskityksellä varmistetaan koodin ainutkertaisuus. Kustantajan ID-tunnuksen alussa olevat koodit (toistaiseksi aina "10" voidaan kuitenkin jakaa esimerkiksi siten että"10" merkitsee Yhdysvaltoja "11" Euroopan unionia ja niin edelleen. Tämän jälkeen DOI:n kustantajatunnuksien jakelua voidaan vaivattomasti hajauttaa. Kontrolli jakelussa säilynee kuitenkin suurilla kustantajilla tai niiden edusjärjestestöillä.

Pienille kustantajille voi olla ongelma, että DOI:n kustantajatunnuksen hankkiminen maksaa. Tunnuksen pituutta ei ole rajattu, joten tilaa on mielivaltaiselle määrälle kustantajia.

Teoksen ID-numeron antaa kustantaja. Periaatteessa tunnus voi olla mikä tahansa numero, mutta on todennäköistä että se perustuu olemassa oleviin järjestelmiin kuten ISBN- ja SICI-tunnuksiin. ID-numeron alussa voidaan sulkeissa ilmoittaa mistä järjestelmästä tunnus on peräisin, mutta tämä tieto on vapaaehtoinen. Niinpä ISBN-tunnukseen perustuva DOI voi näyttää tältä:

10.1002/[ISBN]0-471-58064-3

tai tältä:

10.1002/0-471-58064-3

Tunnusjärjestelmäkoodin vapaaehtoisuus vaikeuttaa teoksen ID-tunnuksen oikeellisuuden ohjelmallista tarkistamista. Tunnuskoodin puuttuessa kirjastojärjestelmän tai muun ID-tunnuksen oikeellisuutta tutkivan ohjelman pitää kokeilla onko kyseessä ISBN, ISSN, SICI, BICI tai muu tarkistettavissa oleva tunnus. Lisäongelmia koituu siitä, että DOI:ssa ei ole tarkistusnumeroa, jonka avulla koko DOI-tunnuksen oikeellisuuden voisi tarkistaa. Niinpä kustantajan tunnus voi olla väärä ja koko DOI virheellinen, vaikka teoksen ID-numero olisi OK.

Kirjastojen kannalta DOI antaa kustantajille vapaat kädet identifoida kaikki elektroniset dokumenttinsa miten haluavat. ID-tunnukset voivat olla kustantajan omia, mutta todennäköistä on että ne perustuvat ISBN/BICI- ja ISSN/SICI-tunnuksiin. Esimerkiksi Wiley (http://doi.wileynpt.com/) soveltaa SICI-tunnuksia artikkeleiden identifiointiin.

Keskeinen osa DOI:stä on resoluutiopalvelu. Käytännön esimerkki löytyy osoitteesta

http://journals.wileynpt.com/articles/0148-7299(19970418)74:2<199:NNARAS>2.0.TX;2-Z.html

Artikkelin lähdeluettelosta löytyy DOI-linkki Academic Pressin lehdessä julkaistuun artikkeliin. Artikkelin paikallistamiseksi tarvitsee vain klikata DOI-tunnusta. Tämän jälkeen WWW-ottaa yhteyden Handle-palvelimelle, joka kertoo mistä dokumentti löytyy. Tämän jälkeen haetaan itse dokumentti.

Koska lähin DOI-palvelin löytyy tätä kirjoitettaessa Yhdysvalloista ja koska niitä on maailmanlaajuisestikin vasta muutamia, vasteaikaa voisi luulla heikoksi. Palvelua kokeillessani olen kuitenkin havainnut sen kohtuulliseksi, joskin DOI-linkki ei ole eikä voikaan olla yhtä nopea kuin URL-linkki.

Internet-käyttö

DOI sopii verkkokäyttöön periaatteessa hyvin, koska mitä tahansa kustantajan antamaa tunnusta voidaan käyttää DOI-tunnuksena. Kansalliskirjastojen kannalta tämä ei välttämättä ole onni, koska kustantaja voisi periaatteessa käyttää jotakin ikiomaa järjestelmäänsä, jonka laadusta ei ole takeita. Useimmiten DOI perustunee kuitenkin johonkin yleisesti tunnettuun järjestelmään, kuten ISSN- tai SICI-tunnukseen. Yleisiä ohjeita DOI-tunnusten käytöstä verkkojulkaisujen identifiointiin on vaikea antaa, koska suositus riippuu käytettävästä ID-tunnusjärjestelmästä. Jos DOI perustuu esimerkiksi ISSN-tunnukseen, DOI:hin pätee kaikki se mitä on sanottu ISSN-tunnuksesta.

DOI-tunnuksen resoluutio julkaisuun tai sen tietoihin perustuu CNRI:n Handle systemiin. Siitä on tiettävästi tulossa Internet-standardi, joten on todennäköistä että järjestelmästä tulee varsin pitkäikäinen. Handle-palvelimia voi olla verkossa periaatteessa rajaton määrä; toistaiseksi kuitenkin vain muutamia. Tätä kirjoitettaessa DOI-tunnuksia on jaettu kustantajille noin 250.000. Kun tunnusten lukumäärä ja niiden hakukäyttö nousee tarvitaan myös lisää Handle-palvelimia.

3. ISBN

International Standard Book Number kehitettiin 1960-luvun lopulla kansainväliseksi kirjojen ja muun monografia-aineiston identifiointijärjestelmäksi. Tavoite on saavutettu: ISBN-tunnuksia käytettiin vuonna 1993 129 maassa. Viime vuosina ISBN-tunnusta on ryhdytty käyttämään uusien aineistoryhmien kuten CD ROM-levyjen identifiointiin.

ISBN koostuu kymmenestä merkistä, jotka on jaoteltu neljään ryhmään:

  • Maantunnus, joka identifioi joko maan (esimerkiksi 951ja 952 = Suomi) tai kielialueen (3 = Saksa, Sveitsin saksankielinen alue sekä Itävalta). Maantunnuksen pituus on 1-5 merkkiä, riippuen asianomaisessa maassa tai kielialueella julkaistujen dokumenttien määrästä. Tunnukset jakaa kansainvälinen ISBN-keskus. Maantunnuksen pituus vaikuttaa oleellisesti jaettavissa olevien kustantajan ja julkaisun tunnusten määrään. Suomessa tunnus on kolminumeroinen toisin kuin esimerkiksi Ruotsissa, Tanskassa ja Norjassa, joissa se on kaksinumeroinen.
  • Kustantajantunnus. Tämän tunnuksen antaa kustantajalle kansallinen ISBN-keskus. Kustantajantunnus voi olla 1-7 merkkiä pitkä. Maksimi riippuu maantunnuksen pituudesta; Suomessa se on viisi merkkiä. Suurilla kustantajilla on lyhyt tunnus (ja paljon julkaisuntunnuksia) ja pienillä kustantajilla vastaavasti pitkä tunnus.
  • Julkaisuntunnus. Kustantaja antaa teoksilleen tunnuksen ISBN-keskuksen antamien ohjeiden mukaan. Esimerkiksi saman teoksen eri versiot (nidottu, sidottu ja niin edelleen) saavat eri ISBN-tunnuksen, sen sijaan muuttamattomat lisäpainokset saman tunnuksen. Samaa ISBN-tunnusta ei saa koskaan käyttää uudestaan. Teoksen tunnus voi olla 1-7 merkkiä pitkä, joten yhden kustantajan käytettävissä olevien numeroiden määrä vaihtelee kymmenestä kymmeneen miljoonaan. Suomessa tunnisteiden maksimi on 100.000 per kustantaja, koska maakoodimme on kolmen numeron mittainen.
  • Tarkistusmerkki. Se lasketaan käyttäen Modulus 11 -algoritmia. Se voi olla numero 1-9 tai kirjain X. Tarkistusmerkin käyttö mahdollistaa sen, että kirjastojärjestelmät ja muut julkaisutietoja käsittelevät sovellukset kuten kirjakauppojen hankintajärjestelmät voivat tarkistaa ISBN-tunnuksen oikeellisuuden.

Luettavuuden parantamiseksi nämä ryhmät erotetaan tavallisesti toisistaan tavuviivoin tai välilyönnein, jotka eivät kuitenkaan ole osa tunnusta. Maakoodit ja kustantajan tunnisteet on jaettu siten, että tunnukset eivät mene päällekkäin vaikka ne "tavutettaisiin" eri tavoin osiin. Suomessa WSOY:llä on kustantajatunnus "0" ja muita merkeillä "951-0" alkavia kustantajatunnisteita ei Suomessa ole. Vastaavasti Yhdysvalloissa on maan tunnus "0", ja muita merkillä 0 alkavia maakoodeja ei ole jaettu.

Julkaisuissa tunnuksen eteen pitää kirjoittaa kirjaimet ISBN luettavuuden parantamiseksi. Esimerkki:

ISBN 951-0-11328-X

Luku on helppo tulkita: kyseessä on suuren suomalaisen kustantajan eli WSOY:n 11328:s ISBN-tunnuksella identifoitu julkaisu. Esimerkkinä annettu tunnus tallennetaan kirjaston näyttöluetteloon ja muihin hakujärjestelmiin muodossa 951011328X; kirjaimia "ISBN" ei saa antaa.

Internet-käyttö

Kansainvälisen ISBN-keskuksen suositusten mukaisesti ISBN-tunnus voidaan antaa kirjan kaltaisille merkityksellisille verkkojulkaisuille. Tarkempaa ohjeistusta ollaan laatimassa.

Oman ISBN-kustantajatunnuksen jakaminen jokaiselle suomalaiselle Internet-omakustantajalle on käytännössä mahdotonta, kun jo painetun aineiston identifiointiin tarvittavien tunnusten jakelu edellyttää tätä nykyä kahta maakoodia (951 ja 952). Kustantajan tunnuksia on tätä kirjoitettaessa noin 3200 ja lisäksi voidaan jakaa 952-90 –alkuisia tunnuksia omakustantanteille. Näitä jaetaan vaihtelevasti, noin 1000-1500 vuodessa. Jos kirjanmuotoiset verkkojulkaisut haluttaisiin identifioida kattavasti, tarvittaisiin arviolta kymmenkertainen määrä kustantajan tunnuksia nykyiseen verrattuna, sekä paljon lisää omakustanteiden tunnisteita. Tämänsuuruinen lisäys olisi ongelma sekä ISBN-järjestelmälle että jakeluorganisaatiolle – ISBN-tunnusten jakelua ei voi automatisoida, koska tunnusta ei ole lupa antaa mille tahansa kirjanmuotoiselle julkaisulle.

Kirjanmuotoisten verkkojulkaisujen identifioinnissa on muitakin ongelmia. Yksi teos voi hajautua moniin itsenäisiin osiin, jotka pitäisi identifioida erikseen sen lisäksi että koko teoksella on oma ID-tunnus. ISBN-tunnusta ei voida tarkentaa siten, että se koskisi vain teoksen osia. Tiedonhaun tehostamiseksi ja ISBN-tunnusten säästämiseksi on kehitetty tunnus nimeltä Book Item and Component Identifier eli BICI, joka toistaiseksi on vasta luonnosasteella. BICI toimii SICI:n tavoin; sen avulla voidaan identifioida kirjan yksittäisiä lukuja, kuvia tai vaikkapa sisällysluettelo, jos nämä ovat erikseen poimittavissa. Verkkokäytössä tämä on erittäin kätevää, kirjan kaikki osat voidaan identifioida ja tarvittaessa myös myydä erikseen.

BICI:n syntaksi on lähes sama kuin SICI:n (katso luku 5), sillä erotuksella että BICI:n alussa on teoksen ISBN.

4. ISSN

International Standard Serial Number-tunnusta käytetään kausijulkaisujen, siis sanoma- ja aikakauslehtien, vuosikirjojen, sarjojen ja niin edelleen identifiointiin. ISSN on määritelty standardissa ISO 3297. Tunnus koostuu kirjaimista ISSN, tyhjämerkistä ja kahdesta neljän numeron ryhmästä, joita erottaa tavuviiva. Kahdeksas merkki on tarkistusmerkki, joka voi olla myös X. Esimerkki:

ISSN 0730-9295

Esimerkkinä annettu tunnus tallennetaan kirjaston näyttöluetteloon ja muihin hakujärjestelmiin muodossa 0730-9295; kirjaimia "ISSN" ei saa antaa.

Kansainvälinen ISSN-keskus (http://www.issn.org) ylläpitää globaalia ISSN-tietokantaa. Se jakaa vapaita ISSN-tunnuksia kansallisille ISSN-keskuksille, jotka puolestaan antavat kustantajille uuden ISSN-tunnuksen pyydettäessä. Tunnus on ISBN:ään verrattuna sikäli "tyhmä" että siitä ei mitenkään ilmene julkaisumaa tai kustantaja, mikä voi Internet-käytössä jonkin verran hankaloittaa tunnusten tulkitsemista. Syksyyn 1997 mennessä ISSN-tunnuksia oli käytetty vasta noin 1.5 miljoonaa vielä ilmestyvien ja jo päättyneiden kausijulkaisujen identifiointiin. ISSN skaalautuu siis hyvin Internetiin, sillä vielä 8.5 miljoonaa tunnusta on käytettävissä.

ISSN-tunnuksia käytetäänkin jo nyt verkkolehtien identifiointiin. Suomessa oli huhtikuuhun 1998 mennessä verkkolehdille jaettu n. 40 ISSN-tunnusta, ja kausijulkaisun kriteerit täyttäviä verkkolehtiä oli kolmisensataa. Verkkolehtien lisääntyminen lisää ISSN-keskuksen työmäärää, mutta toisin kuin ISBN-tunnuksen tapauksessa tilanne on vielä hallittavissa.

Kansainvälisen ISSN-keskuksen ohjeiden mukaan saman lehden painetulle ja verkkoversiolle tulee antaa eri tunnus. Rinnakkaiset verkkoversiot (esimerkiksi sama aikakauslehti PDF- ja HTML-muodossa) saavat ohjeiden mukaan saman ISSN-tunnuksen. ISSN-tunnuksen antamista ei kuitenkaan suositella silloin jos lehden verkkoversion sisältö on hyvin niukka, eli jos se sisältää esimerkiksi vain painetun lehden sisällysluettelon ja/tai artikkelien tiivistelmät. Kansalliset ISSN-keskukset ovat soveltaneet kansainvälisiä periaatteita verkkolehtiin jossakin määrin vaihtelevasti; edelläkävijöitä ovat olleet maat joissa verkkojulkaiseminen ja Internet-käyttö on vilkasta, kuten esimerkiksi Pohjoismaat ja Yhdysvallat.

Internet-käyttö

ISSN-tunnusten käyttö verkkoaineiston hakuun on suunniteltava huolella. ISBN identifioi aina periaatteessa vain yhden dokumentin, joka tosin saattaa verkossa jakautua muutamiksi tiedostoiksi. Sitä vastoin esimerkiksi haku ISSN-tunnuksella 0040-781X voisi pahimmassa tapauksessa, eli jos Time-lehden jokaisessa artikkelissa olisi lehden ISSN-tunnus, tuottaa tuloksena tuhansia sivuja lehden artikkeleita aikojen alusta nykypäivään asti. Yksittäisten artikkeleiden asemesta ISSN-haun pitäisi tuottaa tulokseksi vain elektronisen lehden kotisivu, josta voi helposti jatkaa artikkelitasolle.

Oikein sovellettuna ISSN on erittäin sopiva Internet-käyttöön. Jo tätä kirjoitettaessa ISSN-tunnuksella voi hakea verkkolehtin kotisivuja WWW-indekseistä. Sen ainoa puute on soveltumattomuus kausijulkaisujen numeroiden ja artikkeleiden identifiointiin. Tähän tarkoitukseen on kehitetty artikkeleiden ja muun aineiston identifiointiin on kehitetty Serial Item and Contribution Identifier eli SICI-tunnus, josta lisää seuraavassa luvussa.

5. SICI

Serial Item and Contribution Identifier on vaihtelevan mittainen koodi, jonka avulla voidaan identifioida esimerkiksi lehtien numerot (serial item) ja artikkelit (serial contribution). SICI hyväksyttiin amerikkalaiseksi standardiksi vuonna 1991, ja sen toinen, uusittu versio ilmestyi 1996.

Tunnus koostuu lehden numeroa koskevista tiedoista (Item segment), artikkelia koskevista tiedoista (Contribution segment) sekä tarkistetiedoista (Control segment). Artikkelia koskevat tiedot tarvitaan vain jos SICI annetaan artikkelille.

Mark Needlemanin artikkeli "Computing Resources for an Online Catalog - 10 years later", joka julkaistiin Information Technology and Libraries-lehden vuosikerran 11 numerossa 2 sivulta 168 alkaen kesäkuussa 1992 saa seuraavan SICI-koodin:

0730-9295(199206)11:2<168:CRFAOC>2.0.TX;2-#

Koodi voidaan generoida helposti, kun ISSN-tunnus tiedetään. Niinpä Helsingin yliopiston kirjaston tai muiden kansallisten ISSN-keskusten ei tarvitse jakaa artikkeleiden SICI-tunnuksia, vaan vain kertoa miten koodi luodaan ja opastaa sen käytössä.

Esimerkkinä annettu SICI sisältää seuraavat tiedot:

0730-9295

Julkaisun ISSN

(1992069)

Julkaisuaikatieto

11:2

Numerointitieto (volyymi ja numero)

168

Sijaintitieto, tavallisesti sivun numero; elektronisille lehdille aina 0

CRFAOC

Nimekekoodi; muodostetaan nimekkeen kuuden ensimmäisen sanan ensimmäisistä kirjaimista

2

Code structure identifier. Arvot ovat 1 (lehden numeron tiedot) ja 2 (artikkelin tiedot)

0

Derivative part identifier. DPI:n avulla voidaan kertoa onko kyse artikkelista (0), sisällysluettelosta (1), hakemistosta (2) vai abstraktista (3).

TX

Medium/Format identifier; kahden kirjaimen mittainen koodi jolla ilmaistaan dokumentin formaatti. TX viittaa ASCII-tekstiin. MFI on tärkeä, koska eri formaateissa olevat elektronisen lehden versiot saavat saman ISSN-tunnuksen ja SICI:t eroavat siksi toisistaan vain MFI-koodin osalta.

2

SICI-standardin versio; toistaiseksi aina 2

#

Kontrollinumero

SICI-standardi löytyy SICI-kotisivulta osoitteesta http://sunsite.Berkeley.EDU/SICI). Samasta osoitteesta löytyy myös muun muassa sovellus joka rakentaa SICI-tunnuksen käyttäjän antamien tietojen pohjalta.

Internet-käyttö

SICI identifioi aina vain yhden dokumentin eli artikkelin, joka saattaa ilmestyä useina tiedostoina sen vuoksi, että lehden eri dokumenttiformaateissa julkaistavilla versioilla on kaikilla sama ISSN. Näissäkin tapauksissa SICI:n Medium/Format identifier –koodin avulla voidaan erottaa eri versiot toisistaan.

SICI-tunnus on jo nyt yleisesti käytössä Internetissä DOI-järjestelmän osana. SICI skaalautuu erittäin hyvin kattamaan kaiken verkossa ilmestyvän artikkeliaineiston, koska ISSN-tunnuksessakin on kasvunvaraa. Jakelun organisoinnin kannalta on tärkeää, että SICI-tunnuksia ei tarvitse pyytää kansalliselta ISSN-keskukselta, vaan kustantaja voi generoida ne itse ISSN-tunnuksensa ja SICI-tunnuksia rakentavan ohjelman avulla.

6. NBN

Kansallisbibliografian ID-tunnuksia eli NBN-tunnuksia käytetään sellaisen kansallisbibliografiaan luetteloitavan aineiston identifiointiin, jolla ei ole muuta identifikaatiotunnusta. NBN-tunnusten käyttö on likimain yhtä yleistä kuin ISBN- ja ISSN-tunnusten. NBN:n syntaksista ja käytöstä päättaa jokainen kansalliskirjasto itse; ne myös huolehtivat siitä että tunnukset ovat pysyviä ja ainutkertaisia. Kannattaa huomata että identifikaatiotunnuksen pysyvyys ei ole vain tekninen ominaisuus; itse asiassa on tärkeämpää että tunnuksia jakava organisaatio on pysyvä. Tästä syystä esimerkiksi yliopistojen atk-keskukset eivät sovellu vastuuorganisaatioiksi.

NBN-tunnusten syntaksia rajaa käytännössä se, että MARC-formaatin kiinteämittaisen 001-kentän (tietueen identifikaationumero) pituus on vain 10 merkkiä. Tämä pohjimmiltaan ISO2709-standardista aiheutuva rajoitus muuten aiheuttaa senkin että BICI, SICI, URN ja DOI eivät kelpaa tietueen ID-tunnuksiksi. Tiedossani ei ole aiotaanko tämä 70-lukulainen piirre muuttaa ja jos niin milloin. 001-kenttä ei aiheuttanut ongelmia niin kauan kun kirjastot käyttivät vain ISSN-, ISBN- ja NBN-tunnuksia julkaisujen identifiointiin.

NBN-tunnus on rakentuu Suomessa f-kirjaimesta, vuosiluvusta (kahden tai neljän numeron tarkkuudella) ja juoksevasta numerosta. F-kirjainta voidaan täydentää muilla kirjaimilla; "fe" kertoo että kyseessä on elektronisen julkaisun NBN. Suomen ja muiden maiden NBN-numeroilla ei välttämättä ole muuta yhteistä kuin juokseva numero.

Internet-käyttö

NBN identifioi aina vain yhden dokumentin. Tähän asti identifioinnin on tehnyt aina kansalliskirjasto, mutta NBN-tunnukseen perustuvan URN-jakelun käynnistyessä kuka tahansa voi identifioida oman julkaisunsa tai jonkun toisen tekemän julkaisun kopion. Tästä syystä on tarpeen opastaa NBN-tunnuksen käyttäjille huolella identifioinnin perusteita sekä oleellisimmat tiedot siitä, miten tunnukset voidaan tallentaa julkaisuihin.

NBN-tunnuksen yksinkertaisen rakenteen vuoksi sen jakelu joko sellaisenaan tai URN-tunnuksena voidaan automatisoida. Tunnuksia voidaan myös jakaa periaatteessa rajattomasti, varsinkin jos unohdetaan 001-kentän aiheuttamat rajoitukset.

7. URN

Uniform Resource Name-tunnusten avulla voidaan identifioida pysyvästi Internet-verkosta löytyvät dokumentit. URN-tunnuksia ja niihin liittyviä verkon palveluita kehittää Internet Engineering Task Forcen (a href="http://www.ietf.org/">http://www.ietf.org/ URN Working Group (http://www.ietf.org/html.charters/urn-charter.html). Ryhmä sanee työnsä valmiiksi kesällä 1998. Tämän jälkeen on vuorossa URN-pohjaisten tuotantosovellusten kehittäminen.

URN-tunnuksen rakenne määritellään Internet-standardissa RFC2141 (ftp://ftp.isi.edu/in-notes/rfc2141.txt. Sen mukaan URN koostuu kolmesta osasta:

  • Merkeistä URN: Jokainen URN-tunnus alkaa näin: tarkoituksena on helpottaa URN-tunnuksen löytämistä rakenteettomista dokumenteista. Täysin luotettavaksi URN-tunnusten tunnistusta ei tällä keinolla tietenkään saada, koska jossakin dokumentissa voi olla muiden julkaisujen URN-tunnuksia ja ASCII-tekstissä ei ole mitään keinoa osoittaa mikä URN kuuluu juuri asianomaiselle julkaisulle.
  • NID eli Namespace Identifier. Koodi joka identifioi URN-tunnuksena käytetyn koodijärjestelmän. Kansallisbibliografian ID-numerolla on koodi NBN; ISBN-tunnuksen koodiksi tullee ISBN. NID-tunnusten jakelu voidaan helposti hajauttaa kansalliselle tasolle varaamalla ISO:n maakoodit tähän tarkoitukseen. Ongelmallisempaa on kansallisella tasolla päättää, mikä organisaatio vastaa NID-koodien jakelusta. Suomessa pyritään siihen, että Helsingin yliopiston kirjasto saisi tämän tehtävän vastuulleen.
  • NSS eli Namespace Specific String. Varsinainen ID-tunnus eli esimerkiksi ISBN sijoitetaan tähän osaan.

RFC2141 määrittelee tarkoin sen, mitä merkkejä URN-tunnus saa sisältää. Esimerkiksi skandinaavisia merkkejä ei saa käyttää, vaan ne on koodattava vastaaviksi heksaluvuiksi. Bibliografisten ID-tunnusten osalta ISBN ja ISSN ovat ongelmattomia, kuten myös Suomessa käytetty kansallisbibliografian ID-numero (muiden maiden NBN-numeroista on vaikea sanoa mitään, koska NBN ei ole standardi). BICI ja SICI vaativat merkkimuunnoksia, kaikenlaiset sulkeet kun ovat kiellettyjen merkkien listalla.

Kirjastoalalla käytettyjen identifikaatiojärjestelmien soveltuvuutta URN-tunnuksiksi on käsitelty tarkemmin Internet-standardissa RFC2288 (ftp://ftp.isi.edu/in-notes/rfc2288.txt). Mitään erityisiä ongelmia ei tässä selvityksessä havaittu; dokumentin laatijoiden motiivi onkin ollut ensisijaisesti Internet-yhteisön informoiminen bibliografisten ID-tunnusjärjestelmien luonteesta ja käyttömahdollisuuksista.

Esimerkkejä URN-tunnuksista:

URN:NBN:fi-fe19985628 (kansallisbibliografian ID-numero)

URN:ISBN:9138202107 (ISBN)

Kansallisbibliografian ID-numero on uniikki vain kansallisella tasolla. URN:n edellyttämän globaalin ainutkertaisuuden saavuttamiseksi URN:n NSS-osan alkuun on sijoitettava maakoodi.

URN-tunnusten jakelun edellyttämät käytännön järjestelyt vaihtelevat sen mukaan, mitä järjestelmää käytetään. ISBN- tai ISSN-tunnus pitää hankkia Helsingin yliopiston kirjaston ISBN- tai ISSN-keskuksesta. SICI- ja BICI-tunnus pitää generoida ISSN- tai ISBN-tunnuksen pohjalta. Kansallisbibliografian ID-tunnukseen eli NBN:ään perustuvien URN-tunnusten jakelu voidaan automatisoida, koska NBN-tunnus voidaan antaa periaatteessa mille tahansa verkkojulkaisulle.

URN-tunnusten jakelu on vasta ensimmäinen askel URN-tunnukseen perustuvien palvelujen rakentamisessa. Keskeistä on rakentaa resoluutiopalveluita, joiden avulla Internet-käyttäjät voivat hyödyntää URN-tunnuksia aineiston paikallistamisessa. Resoluutio voidaan tehdä URN-tunnuksesta dokumentin sijaintitietoihin tai bibliografiseen viitteeseen tai suoraan dokumenttiin; toki esimerkiksi resoluutio URL-tunnuksesta URN-tunnukseen on mahdollinen.

Tavoitteena on luoda toiminnaltaan DOI-palvelua vastaava järjestelmä, jossa käyttäjä voi klikata julkaisun URN-tunnusta ja saada dokumentin tai sen tiedot itselleen. Järjestelmän ylin taso on Resolution Discovery Service, palvelu jonka avulla verkosta löydetään palvelin joka kykenee avaamaan halutun URN-tunnuksen.

Valitettavasti on todennäköistä että koko Internetin kattavaa, Domain Name Service -järjestelmää vastaavaa palvelua ei koskaan kyetä rakentamaan, koska Internet on liian suuri. Esimerkiksi DOI on paljon vähemmän kunnianhimoinen mutta myös haavoittuvampi projekti, koska siinä on sitouduttu yhteen tekniikkaan, CNRI:n Handle systemiin. Handle system käyttää kustantajan tunnusta oppaana oikean resoluutiopalvelimen luokse. URN-resolutiopalvelun pitää sisältää paitsi Handle system yhtenä vaihtoehtona, myös monia muita tekniikoita. NID-tunnusten määrän kasvu vaikeuttaa URN-tunnusten tulkkaamista, koska yksi resoluutiopalvelin voi hoitaa vain rajallisen määrän NID-tunnuksia. Esimerkiksi Namespace Identifier –tunnuksen "FI-YLE" tulkkaamiseen voi pystyä vain YLE:ssä oleva palvelin.

Internet-käyttö

Suomessa kansallisbibliografian ID-tunnukseen perustuvien URN-tunnusten jakelu käynnistyi toukokuussa 1998, yhtä aikaa Ruotsin kansalliskirjaston kanssa. URN-generointiohjelma löytyy osoitteesta http://www.lib.helsinki.fi/cgi-bin/urn.pl ja URN-tunnusten käyttöön liittyvää ohjeistusta osoitteesta http://www.lib.helsinki.fi/meta/URN-opas.html.

Muista kansalliskirjastoista ainakin Deutsche Bibliothek harkitsee URN-jakelun käynnistämistä. Kirjastomaailman uljkopuolella URN-tunnusten käyttöönotto on tätä kirjoitettaessa vasta alkutekijöissään, muun muassa koska kustantajatkin ovat panostaneet DOI-tunnukseen. Kirjastot, kirjakaupat ja kustantajat ovat olleet ne organisaatiot jotka ovat tarvinneet julkaisujen identifiointia eniten; ei siis ihme että muulle Internet-yhteisölle on vasta valkenemassa miten tärkeästä asiasta on kyse.

URN-tunnuksien hakukäyttö toteutetaan alkuvaiheessa Nordic Web Index-palvelun http://nwi.funet.fi/ avulla. Myöhemmin, kun Internetin yleiset URN-palvelut ovat käytettävissä, palvelun teknistä perustaa voidaan vaihtaa.

URN-kehittäjät ovat keskustelleet paljonkin siitä, miten kattava URN-resoluutiopalvelu voi olla. Dokumenttien nimeäminen ei sinänsä ole ongelma, koska URN voi sisällyttää itseensä periaatteessa minkä tahansa nykyisen ja tulevan identifiointijärjestelmän. Sen sijaan hankaluuksia tulee, jos URN-resoluutiopalvelu ei löydä sitä palvelinta, joka voisi "avata" halutun URN-tunnuksen.

8. Tunnusten tallennus ja käyttö

Identifikaatiotunnuksia voidaan käyttää joko ulkoisessa (external) tai sisäisessä (embedded) metadatassa. Jälkimmäisessä tapauksessa identifikaatiotunnus on "liimattava" identifioitavaan julkaisuun, edellisessä se tallennetaan osaksi bibliografista tietuetta.

Ulkoista metadataa tallennettaessa perusvaatimus on että tallennukseen käytetyssä formaatissa on paikka tunnisteelle. FINMARC-formaatin avulla voidaan tallentaa tätä kirjoittaessa ISBN, ISSN, NBN ja URN, mutta ei SICI-, BICI- eikä DOI-tunnusta. Lisäksi, kuten edellä on todettu, 001-kentän lyhyys estää esimerkiksi SICI:n ja BICI:n käytön tietueen identifikaationumerona.

Identifikaatiotunnuksen tallentaminen suoraan julkaisuun ei sekään ole täysin ongelmatonta. Pohjoismaissa tunnukset pitäisi tallentaa URN-tunnuksena, koska muuten niitä ei voida käyttää hyväksi URN-resoluutiopalvelussa eikä Nordic Web Index'in tarjoamassa väliaikaisessa URN->URL -linkkauspalvelussa.

Kaikki dokumenttiformaatit eivät tarjoa yhtä hyviä mahdollisuuksia identifikaationumeron tallentamiseen. ASCII-tekstissä on samantekevää, minne tunnus laitetaan, koska indeksointisovellus löytää sen kaikkialta yhtä huonosti. Jos artikkeli esimerkiksi kertoo URN-tunnuksesta ja sisältää useita esimerkkejä ja linkkejä, indeksointisovellus ei voi tietää mikä URN on oikea. Monet tekstiformaatit ovat indeksointiohjelmille outoja, eikä niitä voida indeksoida lainkaan. Tällöin ainoa tallennustapa josta on edes jotakin hyötyä on tunnuksen tallentaminen nimiösivulle. Kuvaformaattien osalta tilanne voi olla vielä pahempi: identifikaatiotunnusta ei voi tallentaa kuvankäsittelyohjelmalla kuvan päälle, mutta ei tunnusta ei voi välttämättä tallentaa myöskään kuvan tekstimuotoiseen nimiöön.

HTML on onneksi miellyttävä poikkeus. Jos tallennat URN:n HTML-dokumentin tekstiosaan, useimmat WWW-indeksit pystyvät indeksoimaan URN-tunnuksen samaan tapaan kuin minkä tahansa termin, ja dokumentti löytyy edellyttäen että indeksi on dokumentin sijainnin suhteen ajan tasalla. Kun tallennat URN-tunnuksen HTML-dokumentin META-kenttään, toistaiseksi vain harvat hakupalvelut pystyvät indeksoimaan sen. Suosittelemme kuitenkin tätä tallennustapaa, koska sen tuki yleistynee nopeasti ja koska se on teknisesti paras. META-kentän ohella URN-tunnuksen tulisi tallentaa myös tekstiin esimerkiksi nimiösivulle, mistä se on helpommin ihmisten luettavissa.

META-kenään tallennettaessa tallennusmuoto on seuraava:

<META SCHEME="URN" NAME="identifier" CONTENT="URN-tunnus">

Esimerkki:

<META SCHEME="URN" NAME="identifier" CONTENT=" URN:NBN:fi-fe19986242">

 Tallennusta voidaan edelleen tehostaa tallentamalla META-kentän tiedot Dublin Core -formaatin edellyttämässä muodossa:

<META NAME="DC.Identifier" SCHEME="URN" CONTENT="URN-tunnus">

Esimerkki:

<META NAME="DC.Identifier" SCHEME="URN" CONTENT="URN:NBN:fi-fe19986242">

Lisätietoja Dublin Core Metadata Element Set -kuvailuformaatista saa osoitteesta http://purl.oclc.org/metadata/dublin_core/. Esimerkki Dublin Core -kuvailusta löytyy esimerkiksi edellisen linkin takana olevan Dublin Core –kotisivun nimiöstä.

Dokumentin eri tallennusformaatissa oleville versioille pitää antaa eri URN. Tiedon hakijat voivat löytää eri versiot ja niiden joukosta alkuperäisen (jos sellainen on olemassa), jos alkuperäisen version URN tallennetaan varianttien Dublin Core -tietojen Source-kenttään. Esimerkki:

<META NAME="DC.Source.Identifier" SCHEME="URN" CONTENT="URN:NBN:fi-fe19985001">

Kuten esimerkistä ilmenee, Dublin Core -kuvailutietojen manuaalinen tallennus on työlästä. Tallennusta voidaan yksinkertaistaa oleellisesti Dublin Core -tallennusalustan avulla. Nordic Metadata -projektin rakentaman alustan suomalainen versio on käytettävissä osoitteessa http://www.lib.helsinki.fi/cgi-bin/dc.pl

Alustaan on linkattu yleisiä Dublin Core -käyttöohjeita, joiden suomentaminen on tätä kirjoitettaessa vielä kesken. Työ valmistuu kesällä 1998.

Juha Hakala, atk-erikoissuunnittelija
Helsingin yliopiston kirjasto
Email: Juha.Hakala@helsinki.fi

Tämän tekstin tarkoituksena on tarkoitus antaa perustiedot elektronisten julkaisujen identifioinnista ensisijaisesti kirjasto- ja kustannusalan ammattilaisille, mutta myös muille julkaisujen identifioinnista kiinnostuneille. Koska ala kehittyy nopeasti, tekstiä on tarpeen ja myös aikomus päivittää usein.
Päivitysversiot ilmestyvät osoitteessa http://www.lib.helsinki.fi/meta/id.html.

Tietolinja 1/1998