ELEKTRONISTEN JULKAISUJEN IDENTIFIOINTI

HUOM! TÄMÄ VERSIO ON VANHENTUNUT.

AJANTASAINEN VERSIO LÖYTYY VERKKO-OSOITTEESTA

http://urn.fi/URN:NBN:fi-fe20071780

Juha Hakala
Tietokantapalvelut
Helsingin yliopiston kirjasto
juha.hakala@helsinki.fi

Versio 3.0, 12.6.2002
URN:NBN:fi-fe20021259

Sisällysluettelo

1. Johdanto
2. ISBN
3. BICI
4. ISMN
5. ISSN
6. SICI
7. NBN 
8. Teosten tunnisteet
9. URN
10. DOI
11. Tunnusten tallennus

Tämä ohje antaa perustiedot elektronisten julkaisujen identifioinnista ensisijaisesti kirjasto- ja kustannusalan ammattilaisille, mutta myös muille asiasta kiinnostuneille.

 

1. Johdanto

Kirjastot, kustantajat ja kirjakaupat ovat jo pitkään käyttäneet erilaisia tunnistejärjestelmiä painettujen julkaisujen identifiointiin. ISBN (International Standard Book Number) ja ISSN (International Standard Serial Number) ovat mahdollistaneet muun muassa elektronisten tilausjärjestelmien luonnin ja siten helpottaneet oleellisesti painettujen julkaisujen hankintaprosessia. Kirjastojen viitetietokannoissa nämä tunnukset mahdollistavat paitsi hyvät hakuominaisuudet, myös mahdollisuuden samaa julkaisua koskevien tuplaviitteiden yhdistämiseen, mikä on tärkeä piirre etenkin yhteisluetteloissa. Internetissä identifiointitunnukset ovat välttämättömiä verkkokirjakaupoille, mutta myös tavalliset verkon käyttäjät hyötyvät niistä - esimerkiksi elektronisen lehden löytää varmemmin, jos sen ISSN on tallennettu lehden kotisivulle.

Elektronisen aineiston löytyvyyden parantamiseksi identifiointitunnukset on otettava käyttöön mahdollisimman kattavasti. Tämä edellyttää käytännössä monentasoisia tunnisteita:

· Tekijöiden tunniste International Standard Authority Data Number (ISADN) on vasta alkutekijöissään, mutta sen tarpeesta ei ole epäilystä: samasta tekijästä voidaan "luvan kanssa" käyttää monia erilaisia nimenmuotoja (Cehov, Tsehov ja niin edelleen), jotka voidaan sitoa yhteen vain kansainvälisellä ID-tunnisteella.

· Teosten ja niiden ekspressioiden tunnisteita rakennetaan ISO TC46:n alakomitea 9:ssä.

· Julkaisujen (manifestaatioiden) tunnisteet. Perinteiset identifikaatiojärjestelmät kuten ISBN ja ISSN kuuluvat tähän ryhmään.

· Julkaisujen osien tunnisteet. Serial Item and Contribution Identifier (SICI) sekä Book Item and Component Identifier (BICI) kuuluvat tähän ryhmään. 

Monet tunnistejärjestelmät ovat tätä kirjoitettaessa joko kehitteillä tai niitä ollaan uudistamassa perin pohjin. Uudistustyöhön osallistuvat kirjastojen ohella kustantajat ja tekijänoikeusjärjestöt, ja verkkokaupan intressit vaikuttavat taustalla. Eri osapuolten intressit eivät aina ole yhteneviä, kuten jatkossa ilmenee.

Perinteisiä julkaisujen tunnistejärjestelmiä kuten ISBN:ää voidaan hyödyntää elektronisen aineiston identifioinnissa, mutta niiden käytössä on omat rajoituksensa. Jäljempänä tarkastelen tilannetta tarkemmin kunkin järjestelmän osalta erikseen. Seuraavat periaatteet pätevät kuitenkin kaikkiin julkaisujen tunnuksiin:

· Tunnistejärjestelmä ei välttämättä skaalaudu siten, että kaikille asianomaisen järjestelmän alaan kuuluville elektronisille julkaisuille voitaisiin antaa ID-tunnus. Esimerkiksi ISBN-järjestelmässä kustantajille varattu alue on niin pieni, että jokaiselle Internet-kustantajalle ei voida antaa omaa kustantajatunnusta. Lisäksi kansallisilla keskuksilla ei ole voimavaroja kaikkien verkkojulkaisijoiden tietojen lähettämiseen kansainväliselle ISBN-keskukselle, joka ylläpitää ISBN-järjestelmään rekisteröityjen kustantajien luetteloa.

· Jos tunnuksien jakelua ei voida automatisoida, toiminnan laajentaminen painetusta materiaalista verkkojulkaisuihin edellyttää paljon lisää työvoimaa jakeluorganisaatiolle. Ja vaikka jakelu voitaisiin automatisoida, tunnuksen mahdollisesti edellyttämä aineiston kuvailu vaatii edelleen ihmistyötä. Esimerkiksi jokainen ISSN-tunnuksen saava lehti on luetteloitava, ja uusien/päättyvien kuvailutiedot on lähetettävä Pariisiin kansainväliselle ISSN-keskukselle globaaliin ISSN-tietokantaan tallennettavaksi. Niinpä verkkolehtien mukaan ottaminen lisää kansallisten ISSN-keskusten työn määrää oleellisesti.

· Tunnuksen soveltamisala verkkoaineiston osalta voi olla epäselvä. Esimerkiksi verkkolehden määrittely on vaikeaa, mikä hankaloittaa ISSN-jakelua. Tätä ongelmaa pyritään helpottamaan uusimalla tunnusten käyttösääntöjä niin, että elektroninen aineisto on otettu huomioon. Selvää on, että suuri osa verkkojulkaisuista tulee kuitenkin jäämään standardoitujen tunnistejärjestelmien sovellusalueen ulkopuolelle. Kattavaan verkkoaineiston identifiointiin esimerkiksi verkkoarkistossa tarvitaan erillisratkaisu. Kansallisbibliografian ID-numeron käyttöalueen laajentaminen tarjoaa tähän yhden mahdollisuuden, jota HYK ja muutamat muut kansalliskirjastot soveltavat.

Internet-verkossa elektroniset julkaisut identifioidaan usein URL-tunnuksen (Uniform Resource Location) avulla. URL ilmaisee kuitenkin vain dokumentin osoitteen (esimerkiksi www.lib.helsinki.fi/meta/index.html) sekä protokollan, jota käyttäen asianomaisessa osoitteessa olevan dokumentin voi noutaa. Samassa osoitteessa oleva dokumentti voi muuttua sisällöltään oleellisesti, ja sama dokumentti voi löytyä useista eri osoitteista tai siirtyä URL-osoitteesta toiseen. Osoitteen vaihtuessa käyttäjällä ei ole identifiointitunnuksen puuttuessa mitään tehokasta keinoa löytää dokumentin uutta sijaintipaikkaa. Tämä ongelma voidaan ratkaista niin sanottujen resoluutiopalvelujen avulla.

Jos verkkojulkaisulla on jokin identifiointitunnus, voidaan rakentaa järjestelmiä, jotka etsivät tunnuksen perusteella julkaisun sijaintipaikan tai -paikat verkossa, ja tuovat käyttäjälle joko dokumentin itsensä, sen kuvailutiedot tai listan URL-osoitteista joista dokumentin voi saada. Näitä järjestelmiä kutsutaan resoluutiopalveluiksi. Niitä ovat muun muassa Digital Object Identifier (DOI) sekä Uniform Resource Name (URN). URN on Internet-yhteisön 90-luvun puolivälissä käynnistynyt aloite, DOI puolestaan on suurten kustantajien rakentama järjestelmä, jonka tavoitteena on tarjota kaupallisen aineiston välitykseen tarvittavat palvelut. Toimiakseen nämä järjestelmät edellyttävät hyvin erilaisen infrastruktuurin; tästä enemmän URN- ja DOI-järjestelmiä käsittelevissä luvuissa.

Resoluutiojärjestelmien standardoinnissa ID-tunnuksen syntaksin määrittely on vasta alkua. Seuraavaksi on määriteltävä se, miten resoluutio eli ID-tunnuksen ja dokumentin linkittäminen verkossa käytännössä tapahtuu. Siihen voidaan tarvita koko joukko standardeja, kuten URN-järjestelmä osoittaa. Lisäksi näitä standardeja on uusittava sitä mukaa kun verkon infrastruktuuri muuttuu. URN-järjestelmän ensimmäinen sukupolvi perustuu Internetin nimipalvelun (DNS) hyödyntämiseen. Kun DNS aikanaan korvataan jollakin muulla teknologialla, URN-järjestelmä siirtyy käyttämään sitä. On tärkeää huomata että DOI on tässä suhteessa oleellisesti haavoittuvampi järjestelmä; koska DOI-tunnukset tallennetaan dokumentteihin HTTP-protokollaan perustuvina hyperlinkkeinä, DOI-järjestelmä on riippuvainen tästä protokollasta eikä välttämättä toimi enää kun verkossa siirrytään hyperlinkkien osalta uuteen teknologiaan.

Resoluutiopalvelun laadun arvioinnissa keskeisin kriteeri on järjestelmän teknologiariippumattomuus. Jos järjestelmä rakentuu jonkin olemassa olevan tietoliikenneprotokollan kuten http-standardin varaan, sen elinkaari jää todennäköisesti hyvin lyhyeksi, korkeintaan parin vuosikymmenen mittaiseksi. Tämä voi riittää kaupallisille yrityksille, mutta kansalliskirjastolle moinen ratkaisu ei sovellu, koska aineiston pitää olla käytettävissä periaatteessa ikuisesti.

Verkossa olevan elektronisen julkaisun identifiointitunnuksen tehokas hyödyntäminen edellyttää sitä, että tunnus tallennetaan dokumentin sisään metadatana. Tällöin WWW-hakupalvelujen käyttämät hakuohjelmat voivat vaivatta indeksoida ID-tunnuksen. XML sallii ID-tunnusten tallennuksen, ja HTML-dokumentissa voidaan identifiointitunnuksen tallennukseen käyttää nimiön (HEAD) META-kenttää - tästä lisää tuonnempana -, mutta valitettavasti monet muut tekstiformaatit eivät tarjoa yhtä tehokasta mahdollisuutta identifiointitunnuksen tallentamiseen. Jos tunnus tallennetaan leipätekstiin, indeksointisovellus ei välttämättä voi päätellä, että kyse on ylipäätään ID-tunnuksesta tai ainakaan asianomaisen julkaisun tunnuksesta.

Resoluutiopalveluista on sitä enemmän hyötyä, mitä enemmän verkossa on dokumentteja joissa on identifiointitunnus. Siksi elektronisten julkaisujen ID-tunnusten jakelu kannattaa aloittaa mahdollisimman nopeasti ja kattavasti; periaatteessa mikään tärkeä ja pitkään säilytettävä verkkojulkaisu ei saisi jäädä ilman tunnusta. Kansalliskirjasto pyrkii edesauttamaan tätä kehitystä laajentamalla kansallisbibliografian ID-numeron käyttöaluetta sellaisiin verkkojulkaisuihin, joille ei muuta identifiointitunnusta voida antaa.


Tarkastelen seuraavaksi alla lueteltujen tunnistejärjestelmien soveltuvuutta elektronisten julkaisujen identifiointiin. Selvitys koskee toisaalta teknistä hyödynnettävyyttä, toisaalta tunnuksen jakelukäytänteitä.

1. International Standard Book Number (ISBN)

2. Book Item and Contribution Identifier (BICI)

3. International Standard Serial Number (ISSN)

4. International Standard Music Number (ISMN)

5. Serial Item and Contribution Identifier (SICI)

6. Kansallisbibliografian ID-numero (NBN, sanoista National Bibliography Number)

7. Teosten ID-tunnukset

8. Uniform Resource Name (URN)

9. Digital Object Identifier (DOI)

Analyysi perustuu osittain EU:n Biblink-projektin julkaisemaan raporttiin, joka on saatavissa osoitteesta http://www.lib.helsinki.fi/meta/biblink.rtf. Valitettavasti tämä teksti on jo pahoin vanhentunut, eikä ajantasaista englanninkielistä tekstiä ole olemassa.

 

2. ISBN

International Standard Book Number kehitettiin 1960-luvun lopulla kansainväliseksi kirjojen ja muun monografia-aineiston identifiointijärjestelmäksi. Tavoite on saavutettu: ISBN-tunnuksia käytetään yli 160 maassa, eikä yksikään niin sanottu tärkeä valtio ole jäänyt järjestelmän ulkopuolelle. Tosin muutamissa maissa, kuten Meksikossa, ISBN-jakelu ei toimi kunnolla. Lisäksi ISBN-tunnusten maksullisuus esimerkiksi Englannissa ja Yhdysvalloissa on leikannut järjestelmän suosiota.

Viime vuosina ISBN-tunnusta on ryhdytty käyttämään uusien aineistoryhmien kuten elektronisten julkaisujen identifiointiin. Periaatteena on, että ISBN-tunnus annetaan kaikille julkaisuille, jotka sisällöltään vastaavat kirjaa. Sen vuoksi sillä, missä muodossa sisältö esitetään tai välitetään, ei ole merkitystä. Fyysinen muoto voi olla painettu kirja, audiovisuaalinen tallenne tai verkkojulkaisu.

ISBN-tunnus koostuu kirjainlyhenteestä ISBN sekä kymmenestä merkistä, jotka on jaoteltu neljään ryhmään. Luettavuuden parantamiseksi nämä ryhmät erotetaan toisistaan väliviivoin (tai tavuviivoin). Julkaisussa numerotunnuksen eteen pitää aina merkitä kirjaimet ISBN. Elektronisessa julkaisussa tämä takaa sen, että ISBN-tunnus löytyy myös automaattisessa indeksoinnissa ja tulkitaan oikein.

· Maantunnus, joka identifioi joko maan (esimerkiksi 951 ja 952 = Suomi) tai kielialueen (3 = Saksa, Sveitsin saksankielinen alue sekä Itävalta). Maantunnuksen pituus on 1-5 merkkiä, riippuen asianomaisessa maassa tai kielialueella julkaistujen dokumenttien määrästä. Tunnukset jakaa kansainvälinen ISBN-keskus. Maantunnuksen pituus vaikuttaa oleellisesti jaettavissa olevien kustantajan ja julkaisun tunnusten määrään. Suomessa tunnus on kolminumeroinen toisin kuin esimerkiksi Ruotsissa, Tanskassa ja Norjassa, joissa se on kaksinumeroinen.

· Kustantajantunnus. Tämän tunnuksen antaa kustantajalle kansallinen ISBN-keskus. Kustantajantunnus voi olla 1-7 merkkiä pitkä. Maksimi riippuu maantunnuksen pituudesta; Suomessa se on viisi merkkiä. Suurilla kustantajilla on lyhyt tunnus (ja paljon julkaisuntunnuksia) ja pienillä kustantajilla vastaavasti pitkä tunnus. Todella pienet kustantajat saavat ISBN:n yhteisestä kustantajantunnuksesta, joka on Suomessa toistaiseksi 952-91.

· Julkaisuntunnus. Kustantaja jakaa teoksilleen tunnukset ISBN-keskuksen antamien ohjeiden mukaan. Esimerkiksi saman teoksen eri versiot (nidottu, sidottu yms.) saavat eri ISBN-tunnuksen, sen sijaan muuttamattomat lisäpainokset saman tunnuksen. Samaa ISBN-tunnusta ei saa koskaan käyttää uudestaan. Teoksen tunnus voi olla 1-7 merkkiä pitkä, joten yhden kustantajan käytettävissä olevien numeroiden määrä vaihtelee kymmenestä kymmeneen miljoonaan. Suomessa tunnisteiden maksimi on 100.000 per kustantaja, koska maantunnuksemme on kolmen numeron mittainen.

· Tarkistusmerkki lasketaan käyttäen Modulus 11 -algoritmia. Se voi olla numero 1-9 tai kirjain X. Tarkistusmerkin käyttö mahdollistaa sen, että kirjastojärjestelmät ja muut julkaisutietoja käsittelevät sovellukset kuten kirjakauppojen hankintajärjestelmät voivat tarkistaa ISBN-tunnuksen oikeellisuuden.

Maantunnukset ja kustantajantunnukset on jaettu siten, että tunnukset eivät mene päällekkäin vaikka ne "tavutettaisiin" eri tavoin osiin. Suomessa WSOY:llä on kustantajatunnus "0" ja muita merkeillä "951-0" alkavia kustantajantunnuksia ei ole. Vastaavasti Yhdysvalloissa on maan tunnus "0", ja muita merkillä 0 alkavia maakoodeja ei ole jaettu.

Suomessa oli toukokuussa 2002 noin 4000 ISBN-järjestelmään rekisteröityä kustantajaa. Tämän lisäksi jaetaan yksittäisiä 952-91 -alkuisia tunnuksia noin 1000-1500 vuodessa omakustantajille ja muille hyvin pienille kustantajille. Maailmanlaajuisesti ISBN-kustantajantunnuksia oli kesällä 2000 jaettu jo yli puoli miljoonaa. Kansainvälinen ISBN-keskus, joka koordinoi ISBN-järjestelmän käyttöä ja tukee kansallisia ISBN-keskuksia, ylläpitää luetteloa tunnuksen omaavista kustantajista, johon kansalliset keskukset lähettävät tarvittavat tiedot.

Internet-käyttö

ISBN-tunnus voidaan antaa kaikille kirjan kaltaisille julkaisuille riippumatta julkaisun fyysisestä muodosta. Toistaiseksi ISBN-tunnuksia on annettu etupäässä kustantajille, jotka julkaisevat verkko- tai muita elektronisia julkaisuja painettujen julkaisujen ohella. Saman teoksen erilaiset painetut ja elektroniset versiot saavat aina eri ISBN:n. Esimerkiksi kirjan nidotulla ja sidotulla versiolla tai samasta teoksesta tehdyllä äänikirjalla on eri ISBN, muun muassa sen vuoksi että kirjakaupan on kyettävä erottamaan nämä versiot toisistaan. Saman logiikan mukaan elektronisen julkaisun eri variantit - HTML-versio, PDF-versio, ja niin edelleen - saavat eri ISBN-tunnukset. Eri elektroniset versiot voivat poiketa ilmiasultaan oleellisesti toisistaan, vaikka intellektuaalinen sisältö olisi sama. Siksi eri ISBN-tunnusten käyttö on hyvin perusteltua.

ISBN-käyttösäännöt määrittelevät tarkoin sen, milloin julkaisulle on annettava uusi ISBN. Painovirheiden korjaaminen tai muuttamaton lisäpainos ei vielä edellytä uutta ISBN:ää. Julkaisun nimen muutos vaatii aina uuden ISBN-tunnuksen. Esimerkiksi Väinö Linnan Tuntematon sotilas ja sen alkuperäinen versio Sotakirja saavat eri ISBN-tunnuksen, vaikka kyseessä on (likimain) sama teos.

Moniosaisen teoksen kaikki osat saavat oman ISBN-tunnuksen, sen lisäksi että koko teos saa oman tunnuksen. Elektronisten julkaisujen osalta tämä periaate on ongelmallinen: jos verkkokirjan jokainen luku on itsenäinen kokonaisuus (tiedosto tai joukko yhteen linkattuja tiedostoja), pitäisikö joka luvulle antaa oma ISBN? Tai jos yksi luku koostuu monesta tiedostosta, jotka ovat erikseen kaupan, pitäisikö nekin identifioida erikseen? Periaatteessa näin pitäisi toimia, koska jokainen dokumentti on identifioitava. Tästä seuraisi kuitenkin ISBN-tunnusten kysynnän nopea kasvu. Vielä ongelmallisempaa on se, että perinteisen kirjan osat luetteloidaan erikseen. Mitä pitäisi tehdä elektronisen kirjan luvuille - pitäisikö nekin luetteloida?

Periaatteessa paras ratkaisu on kehittää kirjojen luvuille yms. osille uusi tunnistejärjestelmä. Hyvä uutinen on se että tällainen järjestelmä on jo olemassa. BICI-tunnus esitellään lyhyesti seuraavassa luvussa.

ISBN:n tulevaisuus

On ilmeistä että jo lähitulevaisuudessa ISBN-tunnuksia tarvitaan vuosittain moninkertainen määrä nykyiseen verrattuna. Suuri osa uusista tietokirjoista ja ennen pitkää myös romaaneista tulee ilmestymään sekä painettuna että elektronisena versiona. Tekijänoikeuksista vapaat klassikkokirjat digitoidaan lähivuosien mittaan kattavasti verkkoon koko maailman käyttöön. Minkä tahansa kirjan elektroninen versio voi koostua monista itsenäisistä osista, jotka on identifioitava erikseen.

ISBN-tunnusta on siis laajennettava, ja tähän työhön on nimitetty ISO-työryhmä. Ryhmässä on pohdittu ISBN:n laajentamista13 merkin mittaiseksi. Tämä tehtäisiin lisäämällä ISBN-tunnuksen alkuun EAN-koodissa käytetty 'kirjamaatunnus' 978. Vanha ISBN-tunnus pysyisi muuten samana, mutta tarkistusmerkki muuttuisi. Käytettävissä olevien tunnusten lisäämiseksi uudelle ISBN:lle haluttaisiin varata myös nykyinen 'musiikkimaatunnus' 979, ja mahdollisesti muitakin EAN-järjestelmästä irrotettavissa olevia kolmen numeron tunnisteita. Päätösten teolla alkaa olla kiire, koska uusi ISBN haluttaisiin käyttöön 1.1.2005.

Vaatimus yhteensopivuudesta EAN-järjestelmän kanssa aiheuttaa ongelmia. Jos ainoa muutos olisi 978-kirjamaatunnuksen lisääminen, ISBN-tunnuksen kapasiteetti kaksinkertaistuisi, koska jokainen tunnus voitaisiin käyttää uudestaan. Ottaen huomioon ISBN-tunnusten kasvavan menekin, 10-15 vuoden kuluttua ISBN:t olisivat taas loppu, ja järjestelmää pitäisi laajentaa uudelleen. Siksi EAN-tunnisteiden lisäämisen ohella on ehdotettu vaihtoehtoisia, pidemmälle meneviä laajennusmenetelmiä.

Jotkut asiantuntijat ovat sitä mieltä, että tarkistusmerkki on tarpeeton, koska ISBN-tunnuksia ei enää tallenneta käsin. Siksi uuden ISBN-tunnuksen kapasiteettia voitaisiin laajentaa 10-kertaiseksi luopumalla tarkistusmerkistä. Mutta ISBN-tunnuksia tallennetaan edelleen käsin ja siksi tarkistusmerkki on edelleen tarpeen. Kustantajilta tulevien virheellisten tunnusten määrä ei ole suuri mutta kuitenkin niin merkittävä, että tarkistusmerkistä ei luovuttane, ainakaan vielä. Toisaalta monet sovellukset olettavat että viimeinen merkki on tarkistusnumero, ja käytännön muuttaminen pakottaisi ohjelmistojen muuttamiseen. Toki 13 merkin mittainen ISBN jo sinänsä pakottaa ohjelmoijat töihin.

Eräät asiantuntijat ovat suositelleet numeroiden käytön asemesta heksadesimaalilukujen käyttöä, samaan tapaan kuin International Standard Text work Code (ISTC) -tunnuksessa. Tämä ehdotus hylättiin sen vuoksi, että EAN-järjestelmä ei hyväksy heksadesimaaleja. ISTC:lle tästä ei ole ongelmaa, koska teokseen ei voi kiinnittää viivakoodia; siihen tarvitaan teoksen fyysinen manifestaatio.

On myös ehdotettu, että nykyisestä ISBN-rakenteesta luovutaan, ja ISBN:stä tulisi ISSN:n kaltainen "tyhmä" numero. ISBN:n tyhmistäminen kaksinkertaistaisi käytettävissä olevien tunnusten määrän. Amerikkalaisten ehdotuksen taustalla on se tosiasia, että Yhdysvalloissa ja Englannissa kustantajantunnukset eivät enää kerro totuutta. New Yorkissa 80 % julkaisutoiminnan volyymistä on saksalaisten monikansallisten kustantajien omistuksessa, ja amerikkalaisten, New Yorkissa julkaistujen teosten tunnisteena käytetään 3:lla (Saksan maatunnisteella) alkavia ISBN-tunnuksia. Mutta tästä ei välttämättä seuraa mitään ongelmaa; jos kustantaja on saksalainen, julkaisut luetteloidaan Saksan kansallisbibliografiaan.

Useimmissa muissa maissa maatunnukset ja kustantajatunnukset ovat edelleen varsin luotettavia, ja enemmistö ISBN-järjestelmässä mukana olevista maista on vastahakoisia luopumaan nykyisestä ISBN:n rakenteesta. Nykyinen ISBN soveltuu hyvin myös URN-resoluutiopalveluille, toisin kuin ehdotettu "tyhmä" ISBN. Jos ISBN alkaa 951:llä, voidaan nykyään päätellä että teoksen tiedot löytyvät Suomen kansallisbibliografiasta. Jos  ISBN:n rakenne muutetaan, 978951-alkuisia ISBN-tunnuksia voi jakaa periaatteessa kuka tahansa. Tunnusta vastaavan julkaisun tiedot voidaan löytää helposti vain jos rakennetaan ISSN-tietokantaa vastaava globaali ISBN-tietokanta, mikä tietenkin on kustantajien tavoitteena. He haluavat yhden neuvottelukumppanin kaiken kirjoihin liittyvän bibliografisen datan hankkimiseen. On ehdotettu että ISBN-järjestelmä toimisi ISSN-verkoston tapaan myös siinä, että kansalliset keskukset luovuttaisivat kirjoja koskevan bibliografisen tiedon globaalia ISBN-tietokantaa ylläpitävälle keskukselle.

Tässä ehdotuksessa on kaksi ongelmaa. Ensinnäkin on edellytetty että tiedot toimitettaisiin kustantajien suosimassa ONIX-formaatissa (http://www.editeur.org/onix.html ). Tämä vaatimus on kirjastoalan näkökulmasta erikoinen, koska a) ONIX ei ole ISO-standardi, ja b) yksikään kansalliskirjasto ei tuota bibliografista tietoa ONIX-muodossa vaan MARC-formaatissa. Lisäksi on teknisesti tarpeetonta ja jopa vahingollista sitoutua yhden formaatin käyttöön. ISBN-standardissa tulisi edellyttää ISO 2709 –standardin eli kirjastojen kansainvälisen vaihtomuodon tukea. ISBN-tietokantaa ylläpitävän keskuksen tulisi voida ottaa vastaan ja tuottaa kuvailutietoja useissa eri MARC-formaateissa ja mahdollisesti myös ONIX- ja MODS-muodossa (Metadata Object Description Schema; http://www.loc.gov/standards/mods/). Mutta jos kustantajat saavat läpi vaatimuksensa ONIXin käytöstä ei siitä ole kirjastoille juuri haittaa; bibliografiset tiedot voidaan konvertoida varsin helposti MARC-formaatista ONIXiin. MODSin tapauksessa kaikki tiedot voidaan konvertoida MARCista MODSiin, koska formaatit on rakennettu alun perin yhteismitallisiksi.

Kansainvälisen ISBN-tietokannan luonti ja ylläpitäminen on suuri työ ja edellyttäisi kansainvälisen ISBN-keskuksen valtuuksien ja resurssien oleellista lisäämistä. Teknisesti tietokanta on nykyisillä palvelimilla toteutettavissa varsin helposti; suurimmissa bibliografisissa tietokannoissa on jo lähes 50 miljoonaa tietuetta ja veisi pitkään ennen kuin ISBN-tietokanta olisi näin suuri. Suurimmat ongelmat olisivat hallinnollisia; datan kerääminen yli 150 maasta on vaikeaa. ISSN-järjestelmässä on mukana noin 70 maata, ja jo niistäkin osa jättää tietonsa lähettämättä globaaliin ISSN-tietokantaan.

13 merkin mittaisen ISBN:n asemesta on ehdotettu siirtymistä 16 tai jopa 25 merkin mittaiseen tunnukseen. Näin mittava laajentaminen takaisi sen, että ISBN-tunnuksen rakennetta ei tarvitsisi pitkään aikaan muuttaa uudelleen ainakaan kapasiteetin puutteen vuoksi. Etenkin 25 merkin mittainen ISBN riittäisi todella pitkään. Ongelmana on se, että tunnistejärjestelmän pitää olla yhteensopiva kaupan tarvitseman EAN-koodin kanssa, mistä syystä 13 merkkiä pidempi ISBN aiheuttaa ongelmia.

Toistaiseksi kukaan ei tiedä, millainen uusi ISBN tulee olemaan. Varmaa on, että se tarvitaan pian, jotta uusi järjestelmä olisi käytettävissä kun vanhan ISBN:n numerot loppuvat. Kirjastojen, kustantajien ja kirjakauppojen atk-järjestelmien sopeuttaminen uuteen ISBN:ään on iso työ joka vaatii runsaasti aikaa. Järjestelmien korjaaminen vuotta 2000 varten kuulosti maallikosta helpolta, mutta maksoi miljardeja. Ohjelmistojen ISBN-modulien korjaaminen ajan tasalle tulee sekin vaatimaan paljon aikaa ja rahaa. Joitakin vanhoja ja/tai pieniä järjestelmiä ei luultavasti koskaan modernisoida, minkä vuoksi uusimuotoisen ISBN:n sisältävät tietueet eivät enää ole luettavissa tai tallennettavissa näihin sovelluksiin.

Nykyisen ISBN-tunnuksen rajat tulevat vastaan myös kustantajatunnuksille varatun tilan päättymisen vuoksi. Oman ISBN-kustantajatunnuksen jakaminen edes merkittäville Internet-omakustantajille on käytännössä mahdotonta. Osasyy tähän on se, että jokaisen kustantajan tiedot pitää kerätä manuaalisesti ja lähettää kansainväliselle ISBN-keskukselle. Jos suomalaisten kustantajien määrä tuplaantuisi vuodessa, kansallinen ISBN-keskus tarvitsisi lisää henkilökuntaa tietojen tallentamiseen. Myös kansainvälinen ISBN-keskus tarvitsisi lisää henkilökuntaa eri maista saapuvien tietojen käsittelyyn.

 

3. BICI

Kirjan lukujen yms. osien identifiointiin on kehitetty tunnus nimeltä Book Item and Component Identifier eli BICI, jonka luonnoksen NISO julkisti elokuussa 2000. Standardi, joka on poimittavissa osoitteesta http://www.niso.org/pdfs/BICI-DS.pdf , on testikäytössä 31.12.2002 saakka. Tiettävästi testikäyttäjiä on ollut kovin vähän, mikä voi aiheuttaa sen ettei standardia hyväksytä.

BICI toimii artikkelien ja lehden numeroiden identifiointiin tarkoitetun, ISSN:ään perustuvan SICI-tunnuksen tavoin; sen avulla voidaan identifioida kirjan yksittäisiä lukuja, kuvia tai vaikkapa sisällysluettelo. Verkkokäytössä tämä on erittäin kätevää, kirjan kaikki loogiset osat voidaan identifioida ja löytää - ja haluttaessa myös myydä - erikseen.

BICI:n syntaksi on lähes sama kuin SICI:n, sillä erotuksella että BICI:n alussa on teoksen ISBN ISSN:n asemesta. Innostus BICI:n käyttöön on toistaiseksi ollut vähäistä, muun muassa koska BICI:n soveltaminen edellyttäisi kustantajien ja kirjakauppojen tietojärjestelmien mittavaa remontointia. Julkaisut pitäisi tehdä rakenteisiksi siten, että BICI-tunnus voidaan generoida automaattisesti. Lisäksi tarvitaan algoritmi joka tuottaisi tunnukset, ja julkaisun metatietoihin kenttä BICI:ä varten.

Kaikki edellä kuvattu voidaan varmasti tehdä. Mutta pahin pullonkaula voi olla se, että BICI ei ole yhteensopiva EAN-järjestelmän kanssa. BICI-tunnuksessa kun on varmasti enemmän kuin 13 merkkiä. Tämän vuoksi BICI ei sovellu kirjakauppojen järjestelmiin, ja siksi sen tulevaisuus näyttää uhatulta.

Koska BICI:ä ei sovelleta, kustantajat turvautuvat ISBN:ään kirjojen lukujen ynnä muiden osien identifioinnissa. Tämä pahentaa ISBN-pulaa nopeasti. Suuret amerikkalaiset kustantajat ovat tiettävästi varautuneet tilanteeseen ostamalla suuria määriä ISBN-tunnuksia varastoon, mikä ilmeisesti on käytännössä toteutettu uusia kustantajatunnuksia varaamalla.

Kirjastojen ja myös käyttäjien edun mukaista olisi edesauttaa BICI:n käyttöä. Tämä vähentäisi ISBN-tunnusten tuhlausta ja varmistaisi sen, että kaikki saman julkaisun osat voidaan löytää hakemalla BICI:n ISBN-osaa.

 

4. ISMN

Nuottijulkaisujen tunnistamiseen tarkoitettu ISMN (International Standard Music Number) -tunnus otettiin käyttöön 1990-luvun puolivälissä. Se vastaa kirjojen ISBN-tunnusta, ja on tarkoitettu apuvälineeksi nuottien kustantamiseen ja myyntiin sekä sekä musiikkikirjastoimintaan ja muuhun nuottikirjallisuuden tiedonhakuun. Vuoden 2002 keväällä ISMN-järjestelmään kuului jo 33 maata, eli kahden viime vuoden aikana mukaan on tullut 10 uutta valtiota. Jäsenmaiden määrä kasvaa edelleen nopeasti.

ISMN muistuttaa rakenteeltaan ISBN-tunnusta. Merkittävin ero on, että ISMN:ssä maantunnus on korvattu M-kirjaimella. Muuten tunnuksessa on samat elementit kuin ISBN:ssä eli kustantajantunnus, julkaisuntunnus ja tarkistusmerkki. Esimerkki:

ISMN M-321-76543-1

Kustantajatunnusten jakelu on koordinoitu kansainvälisesti. Suomessa oli syksyllä 2001 89 rekisteröityä kustantajaa. ISMN-tunnuksia on jaettu Suomessa sekä painetuille että elektronisille nuottijulkaisuille, tosin jälkimmäisille vasta muutamia.

 

5. ISSN

International Standard Serial Number -tunnusta käytetään kausijulkaisujen, siis sanoma- ja aikakauslehtien, vuosikirjojen, sarjojen yms. identifiointiin. ISSN:n rakenne on määritelty standardissa ISO 3297. Tunnus koostuu kirjaimista ISSN, tyhjämerkistä ja kahdesta neljän numeron ryhmästä, joita erottaa tavuviiva. Kahdeksas merkki on tarkistusmerkki, joka voi olla myös X. Esimerkki:

ISSN 0730-9295

Julkaisuissa numerotunnuksen eteen pitää aina merkitä kirjaimet ISSN luettavuuden parantamiseksi.

Kansainvälinen ISSN-keskus (http://www.issn.org) ylläpitää globaalia ISSN-tietokantaa ja koordinoi ISSN:n käyttöohjeiden kehittämistä. Se jakaa vapaita ISSN-tunnuksia muutaman tuhannen tunnuksen "blokkeina" kansallisille ISSN-keskuksille, jotka puolestaan huolehtivat ISSN-tunnusten jakelusta kustantajille. Suomessa ISSN-tunnuksen saa Suomen ISSN-keskuksesta (http://www.lib.helsinki.fi/issn/), joka toimii Helsingin yliopiston kirjastossa.

ISSN-tunnus on ISBN:ään verrattuna sikäli "tyhmä", että siitä ei mitenkään ilmene kausijulkaisun julkaisumaa tai kustantaja. Kevääseen 2002 mennessä ISSN-tunnuksia oli jaettu vasta noin 1.5 miljoonaa vielä ilmestyvien ja jo päättyneiden kausijulkaisujen identifiointiin. ISSN skaalautuu siis hyvin Internetiin, sillä vielä 8.5 miljoonaa tunnusta on käytettävissä. Uusia tunnuksia jaetaan kausijulkaisuille noin 50.000 vuodessa; osa tästä käytetään vanhojen digitoitavien kausijulkaisujen identifiointiin. ISSN-tietokannan viitemäärä ohitti miljoonan rajan vuodenvaihteessa 2002.

ISSN-tunnuksia on annettu verkkolehdille jo noin 12.000. Suomessa oli kevääseen 2002 mennessä jaettu ISSN-tunnuksia noin 300 verkkojulkaisulle; valtaosa näistä on verkkolehtiä, mutta joukossa on myös sarjajulkaisuja sekä jatkuvasti päivitettäviä kumulatiivisia verkkopalveluita. Oman ryhmänsä muodostavat Helsingin yliopiston kirjaston digitoimat 44 vanhinta suomalaista sanomalehteä.

Kansainvälisen ISSN-keskuksen ohjeiden mukaan saman lehden painetulle ja verkkoversiolle tulee antaa eri ISSN-tunnus. Verkkoversio ei kuitenkaan saa ISSN-tunnusta lainkaan, jos sen sisältö on hyvin niukka ja lähinnä esitteenomainen (sisältönä esimerkiksi vain lehden yhteystiedot ja artikkelinäytteitä tai lyhennelmiä).

Verkkolehden eri tiedostomuodoissa julkaistuilla versioilla (esimerkiksi sama lehti HTML- ja PDF-muodossa) on sama ISSN-tunnus. Painetusta lehdestä digitoimalla valmistetussa, eli alkuperäisen julkaisun kanssa täysin identtisessä  verkkoversiossa saa käyttää painetun julkaisun ISSN-tunnusta.

Internet-käyttö

ISSN-tunnusten tallennus verkkolehtiin on suunniteltava huolella. ISBN identifioi aina periaatteessa vain yhden dokumentin, joka tosin saattaa verkossa jakautua muutamiksi tiedostoiksi. Sitä vastoin esimerkiksi haku ISSN-tunnuksella 0040-781X voisi pahimmassa tapauksessa, eli jos Time-lehden jokaisessa artikkelissa olisi lehden ISSN-tunnus, tuottaa tuloksena tuhansia sivuja lehden verkossa julkaistuja artikkeleita aikojen alusta nykypäivään asti. Yksittäisten artikkeleiden asemesta ISSN-haun pitäisi tuottaa tulokseksi vain elektronisen lehden kotisivu; toisin sanoen ISSN pitäisi tallentaa vain verkkolehden kotisivulle, ei artikkeleihin.

Oikein sovellettuna ISSN on erittäin sopiva Internet-käyttöön. ISSN-tunnuksella on helppo hakea verkkolehtien kotisivuja WWW-indekseistä. Sen ainoa merkittävä puute on soveltumattomuus kausijulkaisujen numeroiden ja artikkeleiden identifiointiin. Tähän tarkoitukseen on kehitetty Serial Item and Contribution Identifier eli SICI-tunnus, josta lisää seuraavassa luvussa.

ISSN:n soveltamisessa on kuitenkin yksi mielenkiintoinen rajausongelma: milloin jokin resurssi on tulkittavissa verkkolehdeksi ja milloin on kyseessä jokin muu verkkojulkaisu? Toistaiseksi useimmat lehdet ilmestyvät verkossakin perinteiseen tapaan numeroina, mutta verkkolehdet ovat jo alkaneet tiedonvälityksen nopeuttamiseksi julkaista artikkeleita sitä mukaa kun tekijät saavat ne valmiiksi. Artikkelit on usein myös ryhmitelty esimerkiksi aihepiirin mukaan eikä numeroittain ja vuosikerroittain. Rajasta verkkolehden ja WWW-palvelun välillä on usein kuin veteen piirretty viiva.

ISSN:n soveltamisohjeissa tähän muutokseen on jo varauduttu siten, että ISSN:n voi antaa ns. jatkuville julkaisuille. Niiden määritelmä on mukana kausijulkaisujen uusituissa luettelointisäännöissä (ISBD(CR)) sekä ISSN-keskuksen omissa säännöissä. Jatkossa kansalliset ISSN-keskukset voivat jakaa ISSN-tunnuksia nykyistä laajemmin myös verkon resursseille jotka eivät ole perinteisiä kausijulkaisuja. Tunnuksen soveltamisalueen raja määrittynee käytännössä sen mukaan, miten paljon kansallisilla ISSN-keskuksilla on henkilökuntaa kustantajien neuvontaan ja verkon resurssien luettelointiin.

Kansainvälinen ISSN-keskus on aloittanut atk-järjestelmänsä uudistamishankkeen vuoden 2001 lopulla. Tavoitteena on ottaa käyttöön kaupallinen kirjastojärjestelmä niin vähin muutoksin kuin mahdollista. Hankkeen myötä ISSN-tietokanta tulee paremmin kirjastojen ulottuville tiedonhakua ja kopioluettelointia varten. Hankkeen myötä ISSN-tietokannan ylläpidon on muututtava nykyistä ajantasaisemmaksi, koska harvakseltaan tehtävät eräpäivitykset eivät riitä kopioluetteloinnin tarpeisiin. Toisaalta kahden kirjastojärjestelmän välillä tiedonsiirto voidaan automatisoida niin, että tietueet voidaan siirtää vaikkapa kerran päivässä.

 

6. SICI

Serial Item and Contribution Identifier (SICI) on tunnus, jonka avulla voidaan identifioida kausijulkaisujen numerot (serial item) ja artikkelit (serial contribution). SICI hyväksyttiin amerikkalaiseksi standardiksi jo vuonna 1991, ja sen toinen, uusittu versio ilmestyi 1996. SICIn kolmannen laitoksen valmistelun tarve selvitettiin vuonna 2002 ja todettiin ettei standardin modernisointiin ole tällä erää tarvetta. SICI:n ISO-standardiversion tekoa ei jostakin syystä ole vielä edes aloitettu, ja tämä on puute: SICI:n tulisi olla kansainvälinen, ei vain kansallinen standardi. Tiettävästi ISO on suhtautunut positiivisesti SICI:n standardointiprosessin käynnistämiseen – toivotaan että suunnitelmat toteutuvat. Mitään välitöntä apua ei ole tiedossa, koska ISO-standardointiprosessi kestää yleensä vuosia.

Tunnus koostuu ISSN:stä, kausijulkaisun numeroa koskevista tiedoista (Item segment), artikkelia koskevista tiedoista (Contribution segment) sekä tarkistetiedoista (Control segment). Mark Needlemanin artikkeli "Computing Resources for an Online Catalog - 10 years later", joka julkaistiin Information Technology and Libraries -lehden vuosikerran 11 numerossa 2 sivulta 168 alkaen kesäkuussa 1992 saa seuraavan SICI-koodin:

0730-9295(199206)11:2<168:CRFAOC>2.0.TX;2-#

Esimerkistä ilmenee havainnollisesti se, että SICI on monimutkainen tunnus. Mutta jos elektroninen artikkeli sisältää SICI:n edellyttämät tiedot, artikkelin SICI-tunnus voidaan generoida automaattisesti.  Mitään kansallisia SICI-jakelukeskuksia ei tulla perustamaan, mutta kansallisten ISSN-keskusten tulisi kertoa kustantajille miten SICI-tunnuksia rakennetaan ja opastaa heitä SICI:n käytössä. Myös kansainvälinen ISSN-keskus pyrkii tarjoamaan entistä enemmän SICI-informaatiota käyttäjille.

SICI-tunnus näyttää hyvin monimutkaiselta, mutta tunnuksen tulkitseminen on itse asiassa varsin helppoa. Esimerkkinä annettu SICI sisältää seuraavat tiedot:
 

0730-9295

Julkaisun ISSN

(1992069)

Julkaisuaikatieto

11:2

Numerointitieto (volyymi ja numero)

168

Sijaintitieto, tavallisesti sivun numero. Alun perin elektronisille lehdille tätä tietoa ei voi antaa jos sivunumeroita ei ole. Jos elektroninen versio on digitoitu painetusta, sivunumeroita voidaan tietenkin käyttää. 

CRFAOC

Nimekekoodi; muodostetaan nimekkeen kuuden ensimmäisen sanan (mukaan lukien myös artikkelit) ensimmäisistä kirjaimista

2

Code structure identifier. Arvot ovat 1 (lehden numeron tiedot) ja 2 (artikkelin tiedot)

0

Derivative part identifier. DPI:n avulla voidaan kertoa onko kyse artikkelista (0), sisällysluettelosta (1), hakemistosta (2) vai abstraktista (3).

TX

Medium/Format Identifier; kahden kirjaimen mittainen koodi jolla ilmaistaan dokumentin formaatti. TX viittaa perinteiseen artikkeliin. Verkossa ilmestyneen artikkelin tunnus on toistaiseksi aina CO (Online (remote)).

2

SICI-standardin versio; toistaiseksi aina 2

#

Kontrollinumero

SICI-standardi löytyy helpoimmin SICI-kotisivulta osoitteesta (http://sunsite.Berkeley.EDU/SICI/). Samasta osoitteesta löytyy myös sovellus joka rakentaa SICI-tunnuksen käyttäjän antamien tietojen pohjalta. SICI:n voi noutaa myös NISO:n palvelimelta (katso http://www.techstreet.com/nisogate.html ; syksyllä 2000 tehdyn päätöksen mukaan kaikki NISO-standardit ovat toistaiseksi poimittavissa verkosta maksutta.

Nykyisessä muodossaan SICI-tunnuksessa on se puute, ettei artikkelin erilaisia elektronisia versioita voida erottaa toisistaan. Artikkelin HTML-, PDF- ja muut versiot saavat saman SICI-tunnuksen, mikä aiheuttaa ongelmia jos SICIä käytetään digitaalisessa arkistossa artikkeleiden identifiointitunnisteena. SICI:n seuraavassa versiossa Medium/Format Identifier-koodin käyttöä on laajennettava niin, että artikkeleiden erilaisille elektronisille versioille voidaan antaa eri SICI. Tämä edellyttää vähintään dokumenttiformaattien erottelumahdollisuutta; suotavaa olisi jos lisäksi olisi mahdollista määritellä joitakin digitaalikuvien ominaisuuksia. Sama artikkeli voidaan skannata esimerkikiksi TIFF-muotoon tarkkuuksilla 400 ja 600 dpi; nämä versiot pitäisi voida erottaa toisistaan.

Internet-käyttö

SICI-tunnusta käytetään jo nyt yleisesti kaupallisten verkkolehtien artikkeleiden identifiointiin DOI-järjestelmän osana. SICI skaalautuu erittäin hyvin kattamaan kaiken verkossa ilmestyvän artikkeliaineiston, koska ISSN-tunnuksessakin on kasvunvaraa. Jakelun organisoinnin kannalta on tärkeää, että SICI-tunnuksia ei tarvitse pyytää kansalliselta ISSN- tai SICI-keskukselta, vaan kustantaja voi generoida tarvitsemansa SICI:t itse.

SICI:n käyttöä URN-resoluutiojärjestelmässä tutkittiin osana EU:n DIEPER-projektia. Näiden selvitysten tuloksista tarkemmin URN-tunnusta käsittelevässä luvussa.

 

7. NBN

Kansallisbibliografian ID-tunnuksia eli NBN-tunnuksia käytetään sellaisen kansallisbibliografiaan luetteloitavan aineiston identifiointiin, jolla ei ole muuta identifiointitunnusta. NBN:n syntaksista ja käytöstä päättaa jokainen kansalliskirjasto itse; ne myös huolehtivat siitä että tunnukset ovat pysyviä ja ainutkertaisia. Identifiointitunnuksen pysyvyys ei ole vain tekninen ominaisuus; itse asiassa on tärkeämpää, että tunnuksia jakava organisaatio on pitkäikäinen ja että sillä on pysyvä ja mielellään lakisääteinen vastuu tallentaa identifioidut julkaisut. Tästä syystä esimerkiksi yritykset tai yliopistojen atk-keskukset eivät välttämättä sovellu julkaisujen ID-tunnusten jakelun vastuuorganisaatioiksi. Toisaalta erittäin yksinkertainenkin tunnus voi täyttää kaikki laatuvaatimukset jos sen takana on kansalliskirjaston kaltainen organisaatio.

NBN-tunnus rakentui Suomessa vanhastaan f-kirjaimesta, vuosiluvusta (kahden tai neljän numeron tarkkuudella) ja juoksevasta numerosta. F-kirjainta voidaan täydentää muilla kirjaimilla; "fe" kertoo, että kyseessä on elektronisen julkaisun NBN. Suomen ja muiden maiden NBN-numeroilla ei välttämättä ole mitään muuta yhteistä kuin tunnusten uniikkius kansallisella tasolla. Eri kansalliskirjastot voivat antaa julkaisuille myös identtisiä tunnisteita, koska mitään yhteisiä tunnusten jakeluperiaatteita ei ole. Tämä merkitsee sitä että Internet-käyttöä varten tunnuksiin on lisättävä ainutkertaisuuden varmistava koodi eli esimerkiksi maantunnus.

Internet-käyttö

NBN-tunnusten jakelu on perinteisesti ollut manuaalista ja kansalliskirjaston henkilökunta on huolehtinut tunnusten antamisesta. Manuaalinen jakelu ei ole toimiva vaihtoehto silloin, kun tunnuksia on jaettava paljon.

Useilla kansalliskirjastoilla on käynnissä hankkeita, joissa elektronisten resurssien identifiointi perustuu URN-tunnuksena käytettävään NBN-tunnukseen.

Suomen verkkojulkaisujen kansallisessa arkistossa NBN-tunnuksena käytetään tallennettavista tiedostoista laskettuja MD5-tarkistussummia, joiden eteen lisätään etuliite "fea". Laskennan hoitaa sovellus, jolla aineisto haravoidaan arkistoon. MD5 soveltuu ID-tunnukseksi hyvin, koska kaksi eri julkaisua ei periaatteessa milloinkaan saa samaa tarkistussummaa. Arkistossa tunnistetta käytetäänkin paitsi dokumentin uniikkina hakuavaimena myös tuplakontrollin välineenä: jos kahdella tiedostolla on sama MD5, on käytännössä varmaa että kyseessä on saman resurssin kaksi kopiota. Tätä kirjoitettaessa verkkoarkistossa on noin 10 miljoonaa tiedostoa, jotka on kerättu 30 miljoonasta URL-osoitteesta. Tuplien suuri määrä johtunee siitä, että monilla palvelimilla on useita nimiä.

Saksassa rakennettiin Carmen-projektissa järjestelmä, jossa yli 70 yliopiston julkaisemat elektroniset väitöskirjat tallennetaan kansalliskirjaston palvelimelle. Tallennuksen yhteydessä väittelijät tai heidän yhdyshenkilönsä ao. kirjastossa tallentavat julkaisulle metatiedot, mukaan lukien NBN-tunnuksen.

Norjan kansalliskirjasto käyttää NBN-pohjaista URN-tunnusta kaikkien arkistoimiensa elektronisten resurssien identifiointiin. Myös Ruotsin kansalliskirjasto on käynnistämässä URN/NBN-jakeluhanketta.

NBN-tunnusten käyttö Suomessa ei ole yhtä laajaa kuin esimerkiksi Saksassa, mutta sovelluskohteita on verkkoarkiston lisäksi muitakin. Helsingin yliopiston kirjasto on rakentanut ja tarjoaa verkossa käytettäväksi URN-generaattorin, joka rakentaa kansallisbibliografian ID-numeroon perustuvia URN-tunnuksia.

URN-jakelun käynnistyttyä kuka tahansa voi Suomessa identifioida oman julkaisunsa. Tästä syystä on tarpeen opastaa NBN-tunnuksen käyttäjille julkaisujen identifioinnissa sekä antaa perustiedot siitä, miten tunnukset voidaan upottaa julkaisuihin. Tämä ohje hoitaa edellisen tehtävän; URN-generaattorin käyttöohje jälkimmäisen.

NBN-tunnuksen yksinkertaisen rakenteen vuoksi sen jakelu joko sellaisenaan tai URN-tunnuksena on helppo automatisoida. Tunnuksia voidaan myös jakaa rajattomasti, varsinkin jos unohdetaan 001-kentän aiheuttamat rajoitukset. Verkkoarkiston kymmenille miljoonille dokumenteille saadaan ID-tunnukset ilman vähintäkään ihmistyötä käyttäen edellä kuvattua tekniikkaa.

Verkkojulkaisujen identifioinnissa NBN:llä on tärkeä rooli. Monille verkon julkaisuille ja muille aineistoille (esim. huomattava osa kotisivuista, keskustelulistat) ei useistakaan syistä ole mahdollista eikä edes järkevää antaa perinteisiä identifiointitunnuksia (esimerkiksi ISBN tai ISSN).

Joissakin tilanteissa kahdella eri dokumentilla/tiedostolla voi hyvin olla sama identifiointitunnus. Esimerkiksi elektronisen lehden kotisivun layout voi ajan mittaan vaihdella moneen otteeseen, mutta kaikilla varianteilla on sääntöjen mukaan sama ISSN kunhan lehden nimi ei muutu. Lisäksi ISSN on voitu tallentaa myös artikkeleihin tai lehden numeroiden yhteyteen. Digitaalisessa arkistossa lehden kotisivuvariantit on kuitenkin erotettava toisistaan, ja käytännössä tämä on tehtävä koneellisin menetelmin kuten MD5-tarkistussumman avulla. Verkkoarkistossa perinteiset identifiointitunnisteet toimivat ensisijaisesti vain tiedonhaussa; identifiointi ja halutun version haku tehdään tarkistussummaan perustuvalla URN/NBN-tunnuksella.

 

8. Teosten tunnisteet

IFLA:n Functional Requirements for Bibliographic Records (FRBR) –mallin (http://www.ifla.org/VII/s13/frbr/frbr.pdf ) mukaan voimme eritellä:

· Teokset, esimerkiksi Väinö Linnan Tuntemattoman sotilaan, kirjan pohjalta luodun näytelmän ja kirjan kaksi elokuvaversiota.

· Ekspressiot, esimerkiksi Tuntemattoman sotilaan käännökset eri kielille sekä kirjan kuvitettu laitos

· Manifestaatiot, esimerkiksi Tuntemattoman sotilaan suomenkielisen alkuperäisteoksen eri painokset sidottuina tai nidottuina.

· Niteet, esimerkiksi Tuntemattoman sotilaan ensimmäisen painoksen bibliofiilien kirjahyllyihin tallennetut kappaleet.

Keskeinen ongelma koko tämän järjestelmän kannalta on teoksen määrittely. Kirjastoalan valitsema lähtökohta on teoreettisesti varsin kaunis, ja sitä täydentävät FRBR-julkaisun seikkaperäiset ohjeet siitä, milloin kyse on teoksesta, milloin ekspressiosta. Esimerkiksi alkuperäisteokselle uskollinen käännös on ekspressio, mutta luova käännös on teos; siten Saarikosken paikoin varsin omaperäinen tulkinta Joycen Odysseuksesta on taatusti teos, mutta Mannin Doktor Faustus –teoksen kaunis mutta siitä huolimatta uskollinen käännös ekspressio.

ISON kehittämä teosten tunnisteet identifioivat teoksen tai sen ekspression; esimerkiksi Väinö Linnan romaani Tuntematon sotilas ja sen ruotsinkielinen käännös saavat kumpainenkin oman tunnuksen. Sen avulla on helppo löytää kaikki kyseisen teoksen/ekspression manifestaatiot, sitten aikanaan kun tarvittavat muutokset on tehty kirjastojen bibliografisiin tietokantoihin. Alustavien testien mukaan teostason tietueet voidaan luoda olemassa olevista manifestaatioiden tietueista varsin helposti, mutta ekspressiot tuottavat ongelmia, mikä on varsin ymmärrettävää – ohjelmallisestihan on mahdotonta päätellä onko kyse itsenäisestä teoksesta tai sen ekspressiosta.

Tätä kirjoitettaessa AV-teoksille tarkoitettu International Standard Audiovisual Number (ISAN) ja musiikkiteosten ISWC (International Standard Musical Work Code) ovat valmistuneet. ISTC-standardin (International Standard Text Work Code) kehittäminen eteni Committee Draftiin eli ensimmäiseen julkiseen luonnokseen asti jos vuoden 2001 lopulla, ja kommenttikierros saatiin läpi keväällä 2002. Draft International Standard eli DIS-versio valmistui kommenttien pohjalta toukokuussa 2002, ja teksti lähetetään kommentoitavaksi heinäkuussa 2002.

Edellä mainittujen kolmen järjestelmän seuraksi on tarkoitus rakentaa vielä still-kuville tarkoitettu identifikaatiojärjestelmä, mutta toistaiseksi sen työstämistä ei ole vielä edes aloitettu. Ainakin tähän asti kehitystyölle on ollut luonteenomaista se, etteivät eri työryhmät ole pyrkineet terminologian, tunnusten syntaksin tai tunnusten käyttösääntöjen harmonisointiin, vaan kaikki ovat soveltaneet oman alansa vanhoja käytäntöjä. ISANia, ISWC:tä ja ISTC:tä vertaillessa lopputulos voi näyttää varsin sekavalta, ja sitä se onkin. Tästä ei välttämättä aiheudu ongelmia, koska standardit ovat eri yhteisöjen käytössä. Toiminnallisesti tunnusten erilaisuudesta ei liene mitään haittaa.

Eri alojen erilaisuutta osoittaa hyvin se, ettei AV-aineistolle ole olemassa kattavaa manifestaatioiden identifiointitunnusta. Ongelman poistamiseksi ISANille on ehdotettu tehtäväksi versiot (manifestaatiot) kattava laajennus, V-ISAN, jolla voitaisiin jatkossa identifioida vaikkapa elokuvasta tehtävät eri manifestaatiot, kuten DVD- ja VHS-tuotteet, sekä niiden erikieliset variantit.

ISTC

ISTC-tunnukseen tulee DIS-standardiluonnoksen eli käytännössä lopullisen tekstin mukaan 16 heksadesimaalimerkkiä. Tunnus koostuu neljästä osasta: kolmen merkin mittaisesta tunnuksen antajan tunnisteesta, vuosiluvusta (neljä merkkiä), kahdeksan merkin mittaisesta teoksen tunnisteesta sekä tarkistusluvusta. Järjestelmän kapasiteetti on valtava; ISTC-tunnuksien jakelukeskuksia voi olla 4096, ja jokainen niistä voi antaa vuosittain miljardi tunnusta vuoteen 9999 saakka.

ISTC:n kehittämisessä yksi kompastuskivi oli ainakin kirjastoalan edustajille terminologia. Esimerkiksi teoksen määrittelyssä kustantajien edustajien perusasenne oli hyvin pragmaattinen: jokainen myytävissä oleva itsenäinen teos on voitava identifioitava erikseen. Kootut teokset ovat siten aina omia itsenäisiä teoksiaan, kuten teoksesta pilkotut osakohteet, vaikkapa kirjan erikseen ostettavissa olevat luvut. Eniten hankaluuksia tuotti kuitenkin se, että kustantajat ovat omaksuneet oman, kirjastoalasta poikkeavan terminologian. Esimerkiksi ekspressio merkitsee kustantajille teoksen luontiprosessia, minä vuoksi ISTC-standardista oli poistettava kaikki viittaukset ekspressio-käsitteeseen. Standardia soveltavien kirjastonhoitajien on kuitenkin muistettava että teostunnukset on annettava myös ekspressioille. Samaan "perheeseen" kuuluvien teosten ja ekspressioiden linkittäminen toisiinsa on onneksi nykytekniikalla varsin helppoa; jos tietää Tuntemattoman sotilaan alkuperäisteoksen ISTC:n, sen metatiedoista löytää ISTC-pohjaiset linkit teoksen käännöksiin, erilaisiin kuvitettuihin laitoksiin sekä itsenäisiin rinnakkaisteoksiin. Kuten ISSN-järjestelmässä, jokainen teos jolle annetaan ISTC on myös kuvailtava. Formaatiksi on valittu teoksia varten kehitteillä oleva ONIX-variantti. Siitä tiedetään varmasti ainakin se, että tiedot voidaan kohtuullisen hyvin konvertoida MARC-muotoon

ISTC-järjestelmää tarvitaan, koska teosten ekspressioiden ja manifestaatioiden määrä on nopeasti kasvamassa elektronisen julkaisemisen vuoksi. Kun pahaa aavistamaton käyttäjä etsii vaikkapa Tuntematonta sotilasta Fennicasta, hän saa melkoisen määrän viitteitä – yli 70. Jos pystymme näyttämään aluksi vain teokset (ja niiden ekspressiot) ja vasta tämän jälkeen manifestaatiot erikseen kustakin teoksesta / ekspressiosta, on kokonaisuus käyttäjien kannalta helpommin hahmotettavissa. ISTC-linkkien avulla voidaan helpommin tarjota käyttäjille tietoa teosten välisistä linkeistä; esimerkiksi Shakespearen Romeo ja Julia –näytelmän teostason tiedoista voidaan luoda periaatteessa rajattomasti linkkejä niihin teoksiin, jotka ovat tavalla tai toisella hakeneet inspiraatiota Shakespearen työstä.

On todennäköistä, että kansainvälisellä tasolla ISTC-jakelutoiminta alkaa vuoden 2003 alkupuolella. Jos ja kun OCLC:n ja kolmen muun organisaation muodostama konsortio hyväksytään ISTC:n kansainväliseksi vastuuorganisaatioksi (Registration Authority, RA) – ja yhtään kilpailijaa ei ole näköpiirissä -, konsortion tavoitteena on saada kansainvälisen ISTC-rekisterin luontiin tarvittavat sovelluksen valmiiksi tammikuussa 2003. Parhaassa tapauksessa myös ISTC-standardi valmistuu näihin aikoihin, muutamia kuukausia edellä alkuperäisestä aikataulusta. Jos kaikki suunnitelmat toteutuvat, ISTC otetaan tuotantokäyttöön ensimmäisenä teostunnisteista.

Toistaiseksi ei ole mitään päätöstä siitä, mihin Suomen ISTC-keskus tai keskukset perustetaan. Mutta on todennäköistä, että yksi keskus sijoittuu kansalliskirjastoon, koska HYK vastaa tekstimuotoisen aineiston manifestaatioiden tunnisteista, eli ISBN:stä, ISSN:stä ja ennen pitkää mahdollisesti myös SICI:stä ja BICI:stä. Jos ja kun ISTC-keskuksen toiminta käynnistyy, mielenkiintoisin tehtävä on takautuvien ISTC-tunnusten ja niiden metadatan generointi (minkä standardi yksiselitteisesti sallii, ja mikä on kustantajien ja muiden kirjastojen järjestelmien käyttäjien vuoksi tarpeen). Teostietojen generoinnin ongelmaa on tutkittu intensiivisesti OCLC:ssä; heidän käsityksensä on, että teosten tiedot voidaan rakentaa suuremmitta ongelmitta olemassa olevista manifestaatioiden tiedoista. Ekspressioiden tietojen luonti voi olla vaikeata. Samaan yleiskäsitykseen, pessimistisemmin yleispainotuksin, päätyivät myös Eeva Murtomaa ja Knut Hegna omassa selvityksessään, jossa tutkittiin IFLA:n FRBR-mallin toteutuksen edellyttämää teosten kuvailutietojen luontia. Jos ja kun Suomessa käynnistetään ISTC-hanke, sen lähtötietokannat ovat Fennica ja (mahdollisesti) Arto.

Tutkimuksen rinnalla ja sen tulosten rohkaisemana on jo kehitetty ainakin yksi kirjastojärjestelmä, joka tukee teosten luettelointia ja hakua. Sirsi esitteli tämäntyyppisen sovelluksen ALA-kokouksessa kesäkuussa 2002. Koska muun muassa Kongressin kirjasto on määritellyt teosten kuvailun ja ISTC-järjestelmän yhdeksi keskeisistä tavoitteistaan, voidaan hyvällä syyllä olettaa että muutkin kirjastojärjestelmien toimittajat tulevat uusimaan järjestelmänsä teoksien kuvailua silmällä pitäen.

 

9. URN

Uniform Resource Name -tunnusten avulla voidaan identifioida pysyvästi Internet-verkosta löytyvät dokumentit. URN-tunnuksia ja niihin liittyviä verkon palveluita kehittää Internet Engineering Task Force:n (http://www.ietf.org/) URN Working Group (http://www.ietf.org/html.charters/urn-charter.html). Ryhmän piti saada työnsä valmiiksi jo vuonna 2000 tai viimeistään vuoden 2001 alussa, mutta prosessi venyi kesäkuuhun 2002 asti, koska kaikkiin URN-järjestelmän teknisiä perusteita koskeviin Internet-standardeihin tarvittiin Internet Engineering Steering Boardin hyväksyntä. URN-pohjaisia tuotantosovelluksia on jo rakennettu, koska URN-tunnuksen syntaksi on ollut tiedossa jo vuodesta 1997, ja toimiva sovellus voidaan rakentaa käyttämättä globaalia URN-resoluutiopalvelua – onneksi, sillä sellaista ei vielä ole. Tosin tämänkin palvelun suunnittelutyö on jo aloitettu.

Standardointiurakka oli melkoinen, koska URN-työryhmä on määritellyt paitsi URN:n syntaksin, myös menetelmät joilla URN-resoluutio nykyisessä Internetissä tapahtuu. Tämä on tehty siten, että tulevaisuudessa voidaan ongelmitta käyttää nykyisestä täysin poikkeavaa Internet-infrastruktuuria. URN-tunnukset sinänsä eivät oleta mitään verkon toiminnasta tai resoluutiopalvelujen sijainnista. Tässä suhteessa ero DOI-tunnukseen on merkittävä; DOI-tunnuksethan on tallennettava julkaisuihin hyperlinkkeinä siten, että tunnuksen eteen tulee resoluutiopalvelun URL.

URN-tunnuksen rakenne määritellään Internet-standardissa RFC2141 (http://www.ietf.org/rfc/rfc2141.txt). Sen mukaan URN koostuu kolmesta osasta:

· Merkeistä "URN:". Jokainen URN-tunnus alkaa näin; tarkoituksena on helpottaa URN-tunnuksen löytämistä rakenteettomista dokumenteista. Täysin luotettavaksi URN-tunnusten tunnistusta ei tällä keinolla tietenkään saada, koska jossakin dokumentissa voi olla muiden julkaisujen URN-tunnuksia ja ASCII-tekstissä ei ole mitään keinoa osoittaa mikä URN kuuluu juuri asianomaiselle julkaisulle.

· NID eli Namespace Identifier. Koodi joka identifioi URN-tunnuksena käytetyn tunnistejärjestelmän.

· NSS eli Namespace Specific String. Varsinainen ID-tunnus kuten ISBN sijoitetaan tähän osaan.

Internet-standardi RFC2141 määrittelee myös sen, mitä merkkejä URN-tunnus saa sisältää. Esimerkiksi skandinaavisia merkkejä ei saa käyttää, vaan ne on koodattava vastaaviksi heksadesimaaliluvuiksi. Bibliografisten ID-tunnusten osalta ISBN ja ISSN ovat ongelmattomia, kuten Suomessa käytetty kansallisbibliografian ID-numero. BICI ja SICI vaativat merkkimuunnoksia, kaikenlaiset sulkeet kun ovat kiellettyjen merkkien listalla.

Internet-standardissa RFC2611 (http://www.ietf.org/rfc/rfc2611.txt) määritellään prosessi, jolla NID-tunnusten rekisteröinti tapahtuu. Vastuuorganisaatio on IANA (Internet Assigned Names Authority). Käyttäen tässä standardissa määriteltyä menetelmää, on kansallisbibliografian ID-numerolle varattu Namespace Identifier NBN. Varaus on tehty Internet-standardissa RFC 3188 (http://www.ietf.org/rfc/rfc3188). Sen mukaan NBN-nimiavaruus on hajautettu kansalliselle tasolle varaamalla ISO:n maakoodit tähän tarkoitukseen (esimerkiksi urn:nbn:fi:). Lisäksi jokainen kansalliskirjasto voi jakaa oman "siivunsa" edelleen pienempiin osiin. Kongressin kirjasto on lupautunut pitämään rekisteriä muista NBN-nimiavaruuden jaotuksista.Vastaavalla tavalla on rekisteröity nimialue ISBN:lle, ja seuraavana ovat vuorossa rekisteröinnit SICI:lle ja ISTC:lle.

Tapa jolla URN-järjestelmä käyttää hyväkseen Internetin nimipalvelua eli Domain Name Service -järjestelmää, on määritelty joukossa Internet-standardiluonnoksia, joiden valmistumista – eli IESG:n hyväksyntää – on odotettu jo pari vuotta. Nimipalvelun avulla verkkoon kytkettyjen koneiden nimistä (esimerkiksi www.helsinki.fi) voidaan johtaa numeeriset IP-osoitteet (esimerkiksi 128.214.4.1), joita puolestaan koneet käyttävät yhteydenotossa. Selitän tuonnempana miten tämä tekniikka soveltuu URN- resoluutioon.

Kirjastoalalla käytettyjen identifikaatiojärjestelmien soveltuvuutta URN-tunnuksiksi on käsitelty alustavasti Internet-standardissa RFC2288 (http://www.ietf.org/rfc/rfc2288.txt). Mitään erityisiä ongelmia ei tässä selvityksessä havaittu; dokumentin laatijoiden motiivi onkin ollut ensisijaisesti Internet-yhteisön informoiminen bibliografisten tunnistejärjestelmien luonteesta ja käyttömahdollisuuksista. Tarkempi analyysi - jota on tarvittu esimerkiksi ISBN- ja ISSN-nimialueiden rekisteröinnin yhteydessä - on paljastanut mielenkiintoisia eroja eri järjestelmien välillä.

Syksyllä 2000 käynnistettiin URN-nimialueiden rekisteröinti ISBN- ja ISSN-tunnuksille. Tarvittavat Internet-standardit valmistuivat tammikuussa 2000 (RFC 3044, ISSN) ja lokakuussa 2001 (RFC 3188 ISBN:. Nimialueen rekisteröinnin yhteydessä jokaisen tunnistejärjestelmän soveltuvuus URN-resoluutioon on aina tutkittava erikseen; tästä lisää tuonnempana.

URN-tunnusten generointi olemassa olevista tunnuksista on tunnuksen syntaksin ansiosta erinomaisen helppoa. Muutamia esimerkkejä:

URN:NBN:fi-fe19985628 (kansallisbibliografian ID-numero)
URN:ISBN:9138202107 (ISBN)
URN:ISSN:1560-1560 (ISSN)

Kyse on siis kiinteän prefiksin lisäämisestä olemassa olevaan tunnukseen. Ei ole välttämättä tarpeen rakentaa URN-tunnuksia valmiiksi; riittää että hakujärjestelmä tietää mikä URN-prefiksi kullakin identifiointitunnuksella on. DOI:n osalta tilanne on monimutkaisempi, koska DOI-prefiksi riippuu siitä, kuka tunnuksen antaa.

URN-järjestelmän tarjoamat palvelut on määritelty Internet-standardissa RFC 2483 (ftp://ftp.funet.fi/pub/doc/rfc/rfc2483.txt). Käyttäjä voi "tilata" resoluutiopalvelusta dokumentin URN-tunnuksella sen viitetiedot, sijaintitiedot tai dokumentin itsensä. Riippuu järjestelmästä, käyttäjän oikeuksista ja myös dokumentista, voidaanko haluttu palvelu toimittaa. Sivumennen: DOI-järjestelmässä vastaavia valintamahdollisuuksia ei ainakaan toistaiseksi ole. Siksi resoluutio DOI-tunnuksesta viitetietoihin vaatii eri DOI:n kuin resoluutio itse dokumenttiin. Samalle dokumentille joudutaan siis antamaan useita DOI-tunnuksia jos halutaan tarjota erilaisia DOI-resoluuutiopalveluita.

Resoluutiopalveluilla ja perinteisillä tunnuksilla on yksi suuri periaatteellinen ero. Resoluutiopalvelussa käytetty tunnus (esimerkiksi URN) identifioi julkaisun sekä käytettävän resoluutiopalvelun. Koska jälkimmäisiä voi olla useita, samalla julkaisulla voi kaksi tai useampia URN-tunnuksia.

Selvennetään asiaa esimerkillä. Suomessa valtioneuvosto selvitti vuonna 2000 mahdollisuuksia kansallisbibliografian ID-numeroon perustuvien URN-tunnusten käyttämiseen asiakirjojensa identifioinnissa ja resoluutiopalvelujen rakentamisessa, mutta päätti tuolloin odottaa kunnes URN-standardointi on valmis. Jos tällainen palvelu rakennetaan, sama aineisto voi olla löydettävissä esimerkiksi Eduskunnan palvelimelta, valtioneuvoston yhteisen palvelun kautta sekä kansalliskirjaston verkkoarkistosta. Kahdesta ensimmäisestä käyttäjä saa koko dokumentin, verkkoarkistosta vain kuvailutiedot, koska elektronisia vapaakappaleita ei tulla tarjoamaan vapaaseen käyttöön. Verkkoarkistossa julkaisuun pääsee käsiksi MD5-tarkistussummaan perustuvan URN-tunnuksen avulla, valtioneuvosto puolestaan tulee soveltamaan toisenlaista NBN-pohjaista URN-tunnusta. 

Vastaavasti samalla julkaisulla voi olla useita DOI-tunnuksia, jos esimerkiksi yritysostojen myötä DOI-resoluutiopalvelun osoite vaihtuu.

Internet-käyttö

URN-kehitystyön tavoitteena on luoda periaatteessa koko Internetin kattava järjestelmä, jossa käyttäjä voi esimerkiksi WWW-selaimessa käyttää julkaisussa olevaa URN-tunnusta hyperlinkkinä kuten URL-tunnusta. Verkon käyttäjä voisi esimerkiksi kopioida URN:n selaimen Location-ikkunaan ja painaa Return-näppäintä. Tämän jälkeen haluttu dokumentti tai sen tiedot haetaan verkosta käyttäjälle riippumatta siitä, missä ne sijaitsevat.

Käyttäjälle tämä on yksinkertaista, mutta tarvittava tekninen infrastruktuuri on kaikkea muuta kuin yksinkertainen. Onneksi suurin osa tarvittavasta teknologiasta (DNS-järjestelmä) on jo olemassa.

Globaalin URN-resoluutiopalvelun ylin taso on Resolution Discovery Service (RDS), palvelu jonka avulla verkosta löydetään palvelin, joka kykenee avaamaan halutun URN-tunnuksen. Tarkoitus on pystyttää RDS-palvelut osoitteisiin urn.net ja uri.net. Internet Assigned Names Authority (IANA) tallentaa URN-resoluutiopalveluiden edellyttämät nimipalvelun osoitetiedot näihin järjestelmiin. Internet-nimipalvelun (Domain Name Service, DNS) luonteen mukaisesti nämä tiedot leviävät periaatteessa kaikkialle verkkoon. Oikean URN-resoluutiopalvelun paikallistaminen ei siis ole riippuvainen RDS-nimipalvelimesta, vaikka tarvittavat tiedot tallennetaankin Internet-nimipalveluun sen kautta.

Tarvittavan URN-resoluutiopalvelimen/-palvelimien löytämisen menetelmät vaihtelevat paljon identifikaatiojärjestelmästä riippuen. Perusjako on "tyhmien" ja älykkäiden" tunnisteiden välillä.

Älykkäät tunnisteet kuten nykyisen muotoinen ISBN sisältävät vinkin siitä, mistä päin maailmaa resoluutiopalvelin voisi löytyä. Maantunnuksella 951 tai 952 alkavat ISBN:t ovat ainakin periaatteessa avattavissa Suomen kansallisbibliografian kautta, ja vastaavasti maantunnus 3 viittaa Saksaan, Itävaltaan tai Sveitsin saksankieliseen osaan (nimipalveluun voidaan määritellä joukko palvelimia ja niille prioriteettijärjestys). Internet-nimipalvelulle voidaan suhteellisen helposti ohjeistaa ISBN-maantunnuksien käyttö. Yhdysvalloissa ja Englannissa maantunnus ei, kustannustoiminnan kansainvälistymisen vuoksi, aina pidä paikkaansa. Eurooppalaiset kustantajat ovat ostaneet amerikkalaisia alan yrityksiä, ja tämän vuoksi Yhdysvalloissa ilmestyy kirjoja joiden ISBN alkaa numerolla 3. Mutta kansainvälisen ISBN-keskuksen mukaan kaikki nämä julkaisut luetteloidaan Saksan kansallisbibliografiaan, joten URN-resoluution kannalta mitään ongelmaa ei pitäisi olla.

Globaalin URN-resoluution kannalta on haasteellista, että monet identifiointitunnukset ovat ISSN:n tapaan "tyhmiä", eivätkä kerro dokumentin julkaisupaikasta mitään. Tällöin resoluutiopalvelimen löytäminen voi olla vaikeaa, ellei ole käytettävissä globaalia tietokantaa, jonka kautta URN-tunnukset voidaan muuntaa sijaintipaikoiksi. Esimerkiksi kansainvälinen ISSN-tietokanta toimii ISSN:ään perustuvien URN-tunnusten globaalina resoluutiopalveluna hyvin, edellyttäen että ISSN-tietokannan viitteissä olevat lehtien kotisivujen URL:t ovat ajan tasalla.

Monilla muilla "tyhmillä" tunnistejärjestelmillä asiat ovat huonommin kuin ISSN:llä. Artikkeleiden ja lehtien numeroiden SICI-identifiointitunnukselle ei ISSN-tietokantaa vastaavaa globaalia kantaa voida käytännössä rakentaa, teknisistä ja tekijänoikeussyistä. Globaaliin artikkeleiden viitetietokantaan pitäisi koota kaikki Artoa vastaavat artikkeli-indeksit, joita on sadoittain ellei tuhansittain. Virtuaalinen yhteisluettelo ei tässä tapauksessa ole mahdollinen: on mahdotonta tehdä haku aina sadoista tietokannoista kerrallaan, kun halutaan löytää artikkeli verkosta sen SICI:n perusteella.

SICI:n URN-resoluutiota varten kehitettiin EU:n DIEPER-projektissa ratkaisu, jossa SICI-tunnukset avataan ISSN-tietokannan kautta. ISSN-tietokannan tietueisiin lisätään uusi tietoelementti, johon voidaan tallentaa niiden artikkeli-indeksien tai kokoteksti-indeksien URL-osoitteet, joihin sisältyy artikkeleita halutusta lehdestä. SICI:n URN-resoluutiopyyntö ohjataan ensiksi ISSN-tietokantaan, jossa SICI-tunnukseen sisältyvän ISSN-tunnuksen avulla haetaan lehden bibliografiset tiedot, ja tarkistetaan löytyykö niistä resoluutiopalvelun osoite. Jos löytyy, ISSN-tietokannan oheen rakennettu sovellus voi hakea artikkelin (tai artikkeliviitteen) ja toimittaa sen käyttäjälle.

Tätä kirjoitettaessa URN Namespace Identifier –tunnuksen rekisteröinti SICI:lle on vielä kesken. Lisäksi MARC21-formaattiin pitää saada uusia tietoelementtejä, joiden avulla voidaan kertoa artikkeli-indeksin osoite sekä sen sisältämät vuosikerrat ja/tai numerot. Suomessa tämä merkitsisi muun muassa sitä, että kansalliskirjaston ylläpitämän ELEKTRA-palvelun sisältämien lehtien ISSN-keskukselle lähetettäviin bibliografisiin tietoihin pitäisi lisätä Arto-tietokannan osoite sekä tieto siitä, mitkä vuosikerrat ao. lehdestä on digitoitu. ELEKTRAn kaltaisten stabiilien palveluiden osalta näiden tietojen tallentaminen on helppoa, mutta kaupallisten kustantajien palveluiden kuvaaminen on paljon vaikeampaa. Mutta toisaalta myös verkkolehtien URL-osoitteet muuttuvat koko ajan, ja silti niitä pyritään luetteloimaan kansallisbibliografioihin.

Kaikki Internet-dokumentit kattavaa URN-resoluutiopalvelua ei luultavasti koskaan kyetä rakentamaan, eikä siihen ole edes tarvetta - valtaosa verkkoaineistosta on tarkoitettukin lyhytikäiseksi. Kirjastoalan kannalta keskeiset olemassa olevat tunnukset kuten ISBN, ISSN ja SICI ovat sovitettavissa URN-järjestelmään kohtuullisen hyvin. Mutta URN-resoluutiopalvelua ei kannata rakentaa eikä julkaisua identifioida URN-tunnuksella tai muutenkaan, ellei aineistoa ole tarkoitus säilyttää pitkään. Siksi verkon kattavien URN-resoluutiopalveluiden rakentamisen mielekkyys on vahvasti kytkyksissä siihen, arkistoiko kansalliskirjasto oman maansa verkkoaineistoja, ja jos arkistoi, miten kattavasti se sen tekee.

Suomessa kansallisbibliografian ID-tunnukseen perustuvien URN-tunnusten jakelu käynnistyi toukokuussa 1998, yhtä aikaa Ruotsin kansalliskirjaston kanssa. URN-generointiohjelma löytyy osoitteesta http://www.lib.helsinki.fi/cgi-bin/urn.pl ja URN-tunnusten käyttöön liittyvää ohjeistusta osoitteesta http://www.lib.helsinki.fi/meta/URN-opas.html. Vuodesta 1998 lähtien tunnuksia on jaettu jo muutamia tuhansia. Palvelua ei ole mainostettu kirjastoalan ulkopuolelle, muun muassa koska tehokas resoluutiopalvelu puuttuu toistaiseksi. Tästä huolimatta tunnusten menekki on jatkuvasti kasvanut. Niitä voi käyttää jo nyt tiedonhakuun muun muassa Googlessa (jos tietää ennalta tunnuksen jota hakea), ja jatkossa niitä voi soveltaa muun muassa HYK:n rakentaman kansallisen verkkoarkiston hakusovelluksessa.

Kansalliskirjastot ovat sitoutuneet URN-tunnusten käyttöön, ja URN-pohjaisia hankkeita on jo muun muassa Saksassa ja Norjassa, missä kansalliskirjasto aikoo identifioida kaiken aineiston digitaalisessa arkistossaan NBN:ään perustuvin URN-tunnuksin. Kirjastomaailman ulkopuolella URN-tunnusten käyttöönotto ollut hidasta, koska kustantajat ovat panostaneet DOI-tunnukseen. Merkittävin aluevaltaus on se, että keväällä 2002 MPEG21-standardin kehittäjät valitsivat URN-tunnusten käytön. URN-standardoinnin valmistuttua kesäkuussa 2002 voidaan olettaa URN-tunnusten suosion kasvavan edelleen.

URN-resoluutiopalvelun edellyttämät sinänsä yksinkertaiset lisäpiirteet on jo rakennettu nimipalvelinsovelluksiin; esimerkiksi BIND-ohjelmassa URN-resoluution edellyttämät ominaisuudet ovat olleet jo neljän vuoden ajan. Tältä osin Internet-verkon infrastruktuuri on siis kunnossa. Valitettavasti IANA ei ole vielä rakentanut Resolution Discovery Service –palvelimia, minkä vuoksi nimipalvelusta ei löydy URN-resoluutiopalveluiden tietoja. Todennäköisesti IANA:n viivyttely johtuu siitä, että he odottavat tarvittavien standardien valmistumista.

Ratkaiseva kynnys on URN-resoluutiopalvelun tuen saaminen WWW-selaimiin ja kirjastojärjestelmiin. Nykyisille WWW-selaimille on rakennettu URN-resoluutiota varten lisäohjelmia (plug-in) sekä Java-applet, mutta nämä on tarkoitettu väliaikaisratkaisuiksi. Teknisesti parempi tilapääratkaisu, jota esimerkiksi Deutsche Bibliothek soveltaa, on HTTP Redirect, jossa käyttäjän ei tarvitse asentaa WWW-selaimeensa mitään ylimääräistä. Tarvittavien ohjelmien rakentaminen ei tiettävästi ollut vaikeaa. Tämä ei ole yllätys, koska URN-järjestelmä on pyritty rakentamaan niin, että resoluutiopalvelun rakentaminen olisi helppoa.

WWW-selainten rikastaminen URN-resoluution tuella ei sekään liene hankalaa; käytännön esteenä on ollut URN-standardoinnin keskeneräisyys sekä jaettujen URN-tunnuksien vähäisyys. Nämä molemmat ongelmat poistuvat ennen pitkää; kannattaa muistaa eritoten se että URN-tunnusten generointi takautuvasti on teknisesti erittäin helppoa eikä maksa mitään; URN-tunnukset ovat ilmaisia.

Kirjastojärjestelmistä URN-resoluution tuki puuttuu muun muassa sen vuoksi, että kirjastot eivät ole sitä vaatineet. URN-tunnukset voidaan tallentaa jo nyt kenttään 856, ja ne voidaan tietenkin myös indeksoida, mutta vasta kun kirjastojärjestelmät osaavat käsitellä DNS-järjestelmästä tulevia URN-hakupyyntöjä saadaan URN-järjestelmästä irti kaikki edut. Sen avulla voidaan toteuttaa muun muassa hajautettu kopioluettelointi, joka voisi toimia vaikkapa seuraavasti. Luetteloija antaa cataloguing client –sovellukselle ISSN-tunnukseen tai ISBN-tunnukseen perustuvan URN:n ja pyytää järjestelmää hakemaan julkaisun bibliografiset tiedot. Nimipalvelusta selviää oikean tietokannan – esimerkiksi Uuden Seelannin kansallisbibliografian – osoite, ja sinne lähetetään URN-haku. Uuden Seelannin kansallisbibliografiassa tehdään ISBN-haku, ja löytynyt tietue toimitetaan luetteloijalle. Toki tällaisen järjestelmän rakentaminen on paitsi tekninen myös poliittinen ja organisatorinen haaste, mutta lähivuoden osoittavat kykenevätkö kansalliskirjastot sopimaan tämäntyyppisestä yhteistyöstä.

 

10. DOI

Digital Object Identifier -järjestelmän (http://www.doi.org) taustavoimat ovat Corporation for National Research Initiatives eli CNRI (http://www.cnri.reston.va.us/), joka vastaa järjestelmän teknisestä perustasta,  ja amerikkalainen kustantaja R. R. Bowker, joka puolestaan hoitaa ISBN-jakelua Yhdysvalloissa. DOI-hanketta koordinoi International DOI Foundation (IDF; http://www.doi.org/), jossa todellinen vaikutusvalta on suurilla kustantajilla. Ne vastaavat käytännössä myös rakennettavien palvelujen rahoittamisesta. IDF on julkaissut DOI Handbookin, joka on perusteellinen johdatus järjestelmään (http://www.doi.org/handbook_2000/).

DOI-projekti alkoi syyskuussa 1996 ja sen oli tarkoitus kestää viisi vuotta. Ensimmäiset toimivat tuotantojärjestelmät esiteltiin Frankfurtin kirjamessuilla lokakuussa 1997. Tätä kirjoitettaessa DOI on varsin laajasti tuotantokäytössä, mutta sen sovellusalue rajautuu edelleen suuriin tieteellisiin kustantajiin. Näyttävin esimerkki DOI-pohjaisista palveluista on Crossref-järjestelmä, johon on tallennettu satoja tuhansia tieteellisiä artikkeleita.

Teknisesti DOI perustuu CNRI:n kehittämään Handle systemiin (http://www.handle.net/), jonka ID-tunnussysteemi on periaatteessa yhteensopiva URN-tunnusten kanssa. Mitä tahansa DOI-tunnusta voi siis käyttää myös URN-tunnuksena, kunhan DOI:lle rekisteröidään oma URN Namespace Identifier. Vastaavasti URN voidaan laajentaa DOI-tunnukseksi, mutta teknisesti tässä ei juuri ole mieltä. Ylipäätään DOI:n edellyttämä tekninen ratkaisu (DOI-tunnusten tallentaminen hyperlinkkeinä dokumentteihin) on ongelma, koska riippuvuus HTTP-protokollasta tai mistä tahansa muusta protokollasta on riski. Tekninen kehitys on jatkuvasti nopeaa, minkä vuoksi on vaarallista olettaa että HTTP säilyisi edes vuosikymmenien, saati vuosisatojen ajan. Kustantajille muutama vuosikin voi olla tarpeeksi; kun aineisto ei enää käy kaupan sillä ei enää ole arvoa. Kirjastojen, ja eritoten kansalliskirjastojen, aikaperspektiivi on kuitenkin aivan toinen.

Kirjastoille DOI-palveluiden yksipuolisuus (ei mahdollisuutta pyytää bibliografisia tietoja, vaan vain julkaisu itse) on toinen ongelma. DOIn varaan voidaan luoda (kaupallisten) dokumenttien välityspalvelu, mutta ei esimerkiksi kopioluettelointipalveluita. Lisäksi kirjastojen mahdollisuudet lisätä uusia palveluita DOI-järjestelmään ovat hyvin rajalliset, mutta URN-järjestelmän sisältöön meidän on mahdollista vaikuttaa.

CNRI:n kehittämä Handle system oli tarkoitus saada Internet-standardiksi; tätä varten laadittiin Internet-standardiluonnoskin vuonna 1998. Standardointi ei kuitenkaan ole toistaiseksi onnistunut; viimeisimmät luonnokset ovat kesältä 1999. Lisätietoa palvelusta löytyy osoitteeesta http://www.handle.net/documentation.html. URN-palvelun ja Handle system’in tekninen vertailu osoittaa että jälkimmäisessä on puutteita, mutta standardoinnin suurin este lienee se ettei Internet Engineering Steering Group halua asettua tukemaan toistensa kanssa kilpailevia järjestelmiä, joista toinen (URN) on Internet-yhteisön oma aloite, toinen puolestaan yhden organisaation sisäinen projekti.

DOI-syntaksi on määritelty amerikkalaisessa standardissa ANSI/NISO Z39.84-2000, joka on muiden NISO-standardien tapaan haettavissa verkosta maksutta (katso http://www.niso.org). Muilta osin DOI-järjestelmän standardointi ei ole edennyt.

DOI koostuu kahdesta osasta: julkaisijan ID-tunnuksesta (prefix) sekä teoksen ID-tunnuksesta (suffix), joita erottaa kauttaviiva. Esimerkiksi DOI-tunnus

10.153/34571

sisältää prefiksin "10.153" ja  teoksen ID-tunnisteen "34571".

Prefiksi jakautuu hakemiston tunnukseen (Directory Code) sekä rekisteröijän tunnukseen (Registrant Code), jotka erotetaan pisteellä. Toistaiseksi ainoa sallittu hakemiston tunnus on "10". Rekisteröijän tunnniste identifioi kustantajan tai muun organisaation, joka on antanut teokselle DOI:n. Esimerkissä tämä tunniste siis on "153". Rekisteröijän tunnuksia jakaa tätä kirjoitettaessa vain DOI Registration Agency. Jakelun keskityksellä varmistetaan DOI-prefiksien ainutkertaisuus.

DOI-prefiksin pituutta ei ole rajattu, joten DOI:ssa on periaatteessa tilaa on mielivaltaiselle määrälle kustantajia. Käytännössä rekisteröijien tunnisteiden jakelusta on tullut ongelma, koska se on käsityötä. International DOI Foundation on keskustellut asiasta ISBN-järjestelmän edustajien kanssa, mutta kaikkia osapuolia tyydyttävään kompromissiin ei päästy. Niinpä DOI-palveluja käyttää toistaiseksi vain pieni joukko suuria tieteellisiä kustantajia.

DOI:n kustantajatunnuksen hankkiminen maksaa kustantajan koosta riippuen vaihtelevan summan rahaa, ja myös DOI-tunnukset ovat maksullisia (eivät kuitenkaan kirjastoille). Vastineeksi tästä investoinnista saa mahdollisuuden käyttää olemassa olevia yhteisiä DOI-resoluutiopalveluja, joista vastaa toistaiseksi CNRI.

DOI-järjestelmän on tulevaisuudessa tarkoitus kattaa paljon muutakin kuin vain dokumenttien resoluutiopalvelu. Priscilla Caplanin mukaan:

The DOI initiative, of course, is intended to do more than simply provide persistence. If that was all they wanted, publishers could have implemented a PURL server with a lot less trouble. The International DOI Foundation hopes to build a comprehensive system for managing permissions and has working groups actively addressing several aspects of this, including policy, applications, descriptive metadata, and metadata for rights management (http://info.lib.uh.edu/pr/v9/n1/capl9n1.html).

DOI on siis paljon enemmän kuin vain ID-tunnus - sen varaan rakennetaan elektronisten julkaisujen jakelujärjestelmä. Tunnuksesta maksaessaan kustantajat maksavat infrastuktuurista, joka mahdollistaa julkaisujen välittämisen, maksullisesti tai ilmaiseksi. Toistaiseksi tästä infrastruktuurista on saatu rakennetuksi vasta osia, mutta on syytä uskoa että kehitys on jatkossa nopeaa. DOI-organisaatiolla ei ole omia kehittämisresursseja, joten se on riippuvainen kustantajien omista hankkeista, mutta suurten kustantajien voimavarat ovat tietenkin aivan toista luokkaa kuin kirjastojen.

Teoksen DOI-numeron antaa joko kustantaja tai muu rekisteröijä. DOI-tunnukseksi kelpaa mikä tahansa tunnistejärjestelmä, mutta on todennäköistä tai ainakin toivottavaa että se perustuu olemassa oleviin järjestelmiin kuten SICI:iin. ID-numeron alussa voidaan sulkeissa ilmoittaa mistä järjestelmästä tunnus on peräisin, mutta tämä tieto on vapaaehtoinen. Niinpä ISBN-tunnukseen perustuva DOI voi näyttää tältä:

10.1002/(ISBN)0-471-58064-3

tai tältä:

10.1002/0-471-58064-3

Tunnistejärjestelmäkoodin vapaaehtoisuus vaikeuttaa DOI-tunnuksen oikeellisuuden ohjelmallista tarkistamista. Tunnuskoodin puuttuessa kirjastojärjestelmän tai muun ID-tunnusta tutkivan ohjelman pitäisi kokeilla onko kyseessä ISBN, ISSN, SICI, BICI tai muu ylipäätään tarkistettavissa oleva tunnus. Lisäksi DOI:ssa ei ole tarkistusnumeroa, jonka avulla koko DOI-tunnuksen oikeellisuuden voisi tarkistaa. Niinpä DOI-prefiksi voi olla väärä ja koko DOI sen vuoksi virheellinen, vaikka julkaisun tunnus olisi kunnossa.

Pahin tekninen DOI-ongelma on kirjastojen kannalta kuitenkin se, että kustantaja voi käyttää DOI-järjestelmän sisällä mitä tahansa identifiointitunnusta. Siksi DOIn syntaksin standardoinnin arvo on verraten vähäinen; kaaoksen standardoimisesta ei juuri ole iloa. Periaatetasolla DOI on ongelmallinen järjestelmä sen vuoksi, että kaikki päätäntävalta on International DOI Foundation’lla, joka ei salline ulkopuolisten (ei-kustantajien) vaikuttaa strategisesti tärkeän tietojärjestelmän kehittämiseen.

Internet-käyttö

DOI-tunnusten resoluutiopalvelu toimii toistaiseksi HTTP-protokollan varassa siten, että DOI-tunnukset upotetaan aina URL-tunnukseen http://dx.doi.org. Jos siis DOI-tunnus on 10.1006/rwei.1999.0001, sen nykyiselle DOI-resoluutiopalvelulle kelpaava muoto on http://dx.doi.org/10.1006/rwei.1999.0001. Tulevaisuudessa CNRI:n ylläpitämän Handle-palvelimen (http://dx.doi.org) rinnalle tulee uusia palvelimia; esimerkiksi UKOLN on pystyttänyt Handle-palvelimen testatakseen sen toimintaa.

DOI-prefiksillä ei siis toistaiseksi ole mitään tekemistä DOI-resoluution kanssa, vaan resoluutio hoidetaan URL-tunnuksella, joka ei ole osa DOI:ta. Jos halutaan käyttää UKOLNin Handle-palvelinta, DOI-tunnukset on tallennettava URL:n http://dx.ukoln.ac.uk perään. Jos DOI-tunnukset tulevaisuudessa integroidaan URN-tunnuksiksi, DOI-prefiksiä voidaan käyttää vinkkinä kertomaan, mistä DOI:lle löytyy resoluutiopalvelu. Esimerkiksi URN-tunnuksen urn:doi:10.1006/rwei.1999.0001 avaaminen URN-resoluutiopalvelun kautta olisi helppoa: tarvitaan vain yksi Internet-nimipalvelun tietue, jossa kerrotaan, että DOI-hakemiston tunnukselle "10" resoluutiopalvelu löytyy osoitteesta http://dx.doi.org.

DOI:t voidaan edellä kuvatulla tekniikalla tallentaa HTML-dokumentteihin URL-tunnuksina hyperlinkeiksi. WWW-selain osaa ottaa nimipalvelua käyttäen URL-osoitteen perusteella yhteyden Handle-palvelimelle, joka kertoo DOI:n avulla mistä dokumentti löytyy. Tämä järjestely on täysin riippuvainen siitä, että osoitteessa http://dx.doi.org on palvelin, joka osaa avata DOI-tunnuksen. Voidaan myös kysyä, miten toimiva yhteen ainoaan palvelimeen perustuva maailmanlaajuinen järjestelmä on. Jos dx.doi.org-palvelin ei ole käytettävissä, yhtäkään DOI-tunnusta ei voida avata vastaavaksi URL-tunnukseksi.

Keskitetyn teknisen perustansa ja kaupallisen orientaationsa vuoksi DOI:stä ei voi tulla koko Internet-verkon kattavaa resoluutiopalvelua. DOI rajautuu etupäässä suurten kustantajien kaupallisen aineiston jakeluun, ja tässä sillä voi olla paljon annettavaa. Kun DOI-tunnusten ja niitä käyttävien kustantajien määrä ja DOI-järjestelmän hakukäyttö kasvavat, on järjestelmän tekninen ja hallinnollinen infrastruktuuri rakennettava paljon nykyistä järeämmäksi. Suurin haaste on kuitenkin luvattujen lisäarvopalveluiden rakentaminen, koska ne ovat paljolti riippuvaisia kuvailutiedoista eli metadatasta, jonka tallentaminen on hyvin kallista.

 

11. Tunnusten tallennuksesta

Identifiointitunnuksia voidaan käyttää joko ulkoisessa (external) tai sisäisessä (embedded) metadatassa. Jälkimmäisessä tapauksessa identifiointitunnus on "liimattava" identifioitavaan julkaisuun, edellisessä se tallennetaan osaksi bibliografista tietuetta.

Ulkoista metadataa tallennettaessa perusvaatimus on, että tallennukseen käytetyssä formaatissa on paikka tunnisteelle. Nykyisen FINMARC-formaatin avulla voidaan tallentaa ISBN, ISSN, NBN ja URN, mutta ei SICI-, BICI- eikä DOI-tunnusta. FINMARC 2000:lla ja MARC21-formaatissa sekä sen varianteissa kuten MARC21-Fin:ssä voidaan tallentaa mikä tahansa identifiointitunnus.

Kaikki dokumenttiformaatit eivät tarjoa yhtä hyviä mahdollisuuksia identifiointitunnuksien tallentamiseen. ASCII-tekstissä on samantekevää, minne tunnus laitetaan, koska indeksointisovellus löytää sen kaikkialta yhtä huonosti. Jos artikkeli esimerkiksi kertoo URN-tunnuksista ja sisältää useita esimerkkejä ja linkkejä, indeksointisovellus ei voi tietää mikä URN on "oikea".

Monet tekstiformaatit ovat indeksointiohjelmille outoja, eikä niitä voida indeksoida lainkaan. Tällöin ainoa tallennustapa josta on edes jotakin hyötyä on tunnuksen tallentaminen nimiösivulle. Kuvaformaattien osalta tilanne voi olla vielä pahempi: identifiointitunnusta ei voi tallentaa kuvankäsittelyohjelmalla kuvan päälle, mutta ei tunnusta ei voi välttämättä tallentaa myöskään kuvan tekstimuotoiseen nimiöön.

HTML ja XML ovat onneksi rakenteisina tekstiformaatteina hyvin soveltuvia metadatan tallennukseen. Jos URN on sijoitettu HTML-dokumentin tekstiosaan, WWW-indeksit pystyvät indeksoimaan sen samaan tapaan kuin minkä tahansa termin, ja dokumentti löytyy edellyttäen että WWW-indeksi – Google tai muu vastaava palvelu - on dokumentin sijainnin suhteen ajan tasalla. Jos URN on tallennettu XML- tai HTML-dokumentin nimiöön, eli HTML:n tapauksessa META-kenttään, toistaiseksi vain harvat hakupalvelut indeksoivat sen. Teknisesti indeksointi olisi helppoa, mutta ongelmana on metadatan huono laatu.

Suosittelemme kuitenkin tätä tallennustapaa, koska sen tuki yleistynee nopeasti ja koska se on teknisesti paras. META-kentän ohella URN-tunnuksen tulisi tallentaa myös tekstiin esimerkiksi nimiösivulle, mistä se on helpommin ihmisten luettavissa.

META-kenttään tallennettaessa tallennusmuoto on seuraava:

<META SCHEME="URN" NAME="identifier" CONTENT="URN-tunnus">

Esimerkki:

<META SCHEME="URN" NAME="identifier" CONTENT=" URN:NBN:fi-fe19986242">

 Tallennusta voidaan edelleen tehostaa tallentamalla META-kentän tiedot Dublin Core -formaatin edellyttämässä muodossa:

<META NAME="DC.Identifier" SCHEME="URI" CONTENT="URN-tunnus">

Esimerkki:

<META NAME="DC.Identifier" SCHEME="URI" CONTENT="URN:NBN:fi-fe19986242">

Lisätietoja Dublin Core -kuvailuformaatista saa osoitteesta http://www.lib.helsinki.fi/dublin_core/. Esimerkki Dublin Core -kuvailusta löytyy esimerkiksi edellisen linkin takana olevan Dublin Core –kotisivun nimiöstä.

Dokumentin eri versioille (PDF, Word ja niin edelleen) pitää antaa eri URN. Tiedon hakijat voivat löytää eri versiot ja niiden joukosta alkuperäisen (jos sellainen on olemassa), jos alkuperäisen version URN tallennetaan varianttien Dublin Core -tietojen Source-kenttään. Esimerkki:

<META NAME="DC.Source" SCHEME="URI" CONTENT="URN:NBN:fi-fe19985001">

RDF (Resource Description Framework) on XML-kieleen nojautuva tapa tallentaa dokumentin kuvailu. Perusideana RDF:ssä on erilaisten metatietojen yhdenmukaistaminen samanlaiseen muotoon tai alustaan (framework); tämän toivotaan tekevän mahdolliseksi metadatan koneluettavuuden ohella sen koneymmärrettävyyden. Tämän vuoksi RDF on yksi Semantic Web –hankkeen perusosista.

Dublin Core -formaatin mukaisesti URN-tunnus RDF/XML muodossa näyttää tältä:
<dc:Identifier>
<rdf:description>
<dcq:IdentifierScheme>URN</dcq:IdentifierScheme>
<rdf:value>URN:NBN:fi-fe19986242</rdf:value>
</rdf:description>
</dc:Identifier>

RDF:n käytöstä Dublin Coren ilmaisussa voit lukea dokumentista Guidance on expressing the Dublin Core with Resource Description Framework (http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/WD-dc-rdf/) ja yleistä tietoa löytyy W3C:n RDF sivuilta (http://www.w3.org/RDF/).

Dublin Core -kuvailutietojen manuaalinen tallennus on työlästä. Tallennusta voidaan yksinkertaistaa oleellisesti Dublin Core -tallennusalustan avulla. Nordic Metadata II -projektin rakentaman alustan suomalainen versio on käytettävissä osoitteessa http://www.lib.helsinki.fi/cgi-bin/dc.pl