Scripta Selecta

Kirjoituksia Kansalliskirjaston kokoelmista

Fenno-Ugrica 10 vuotta. Vähemmistökielten asemaa tukemassa ja niihin kohdistuvaa tutkimusta mahdollistamassa, osa yksi

Julkaisupäivä
Kirjoittaja
Jussi-Pekka Hakkarainen, Ulriikka Puura, Niko Partanen

Kansalliskirjaston ylläpitämä uralilaisilla kielillä julkaistujen aineistojen verkkokokoelma, Fenno-Ugrica, täyttä kesäkuussa 10 vuotta. Juhlistamme merkkipaalua julkaisemalla kaksiosaisen blogikirjoituksen, jossa paneudumme kokoelman syntyyn ja merkitykseen vähemmistökielten dokumentoinnille ja tutkimukselle. Ensimmäisessä osassa kerromme projektin toteutuksesta ja kokoelman avulla tehdystä tutkimuksesta.

Esimerkkejä Fenno-Ugricasta löytyvistä aineistoista

Esimerkkejä Fenno-Ugricasta löytyvistä aineistoista

The measurable outcomes arising from the existence of a digital resource that demonstrate a change in the life or life opportunities of the community for which the resource is intended. 

- Simon Tanner 

Mikä on Fenno-Ugrica? 

Kansalliskirjaston ylläpitämä uralilaisilla kielillä julkaistujen aineistojen verkkokokoelma, Fenno-Ugrica, saavuttaa tänään 6.6.2023 kymmenen vuoden iän. Fenno-Ugrica koostuu yli 20 eri kielellä julkaistuista aineistoista. Kokoelmassa on yhteensä noin 1500 monografianimekettä ja 110 kausijulkaisua, joita painettiin entisen Neuvostoliiton alueella pääsääntöisesti 1920–1940-luvuilta ja joiden saatavuus sekä Suomessa että nykyisen Venäjän Federaation alueella on rajallista. 

Uralilaisilla kielillä painettujen aineistojen lisäksi Fenno-Ugrica sisältää kuusi erikoiskokoelmaa: saamelaiskielisen Lapponican, romanikielisen Zingarican ja jiddišinkielisen Hebraican sekä Viron kielen instituutin liivinkielisten ja Komin tasavallan kansalliskirjaston kominkielisten aineistojen kokoelmat. Lisäksi erikoiskokoelmiin kuuluu myös Suomen Muinaismuistoyhdistyksen ja Suomalais-Ugrilaisen Seuran digitoituja julkaisuja. 

Fenno-Ugrican aineisto on tuotettu Kansalliskirjaston toteuttamassa Sukukielten digitointiprojektissa vuosina 2012–2015 ja Vähemmistökielten digitointiprojektissa vuosina 2016–2018. Projektit toteutettiin Koneen Säätiön rahoituksella. Hankkeiden edistymistä pääsi aikoinaan seuraamaan Kansalliskirjaston sosiaalisen median kanavilla, projektin VKontakte-profiilin ja edelleenkin toimivan blogin kautta.  

Tässä kirjoituksessa tarkastellaan muutamien esimerkkien avulla, millainen merkitys Fenno-Ugricalla on ollut kirjaston, tutkijoiden ja kielenpuhujien näkökulmasta.  

Fenno-Ugrica on toteutettu kielen dokumentointia varten

Fenno-Ugrican alkukoti on Koneen Säätiön Kieliohjelmassa, jota toteutettiin vuosina 2012–2016. Kieliohjelman yhtenä keskeisenä tehtävänä oli ”pienten suomalais-ugrilaisten kielten, suomen sekä Suomen vähemmistökielten dokumentointi ja niiden aseman vahvistaminen”. Kansalliskirjaston toiminta- ja osaamiskentälle tässä kehyksessä sijoittui ennen kaikkea Venäjän federaation alueella puhuttavilla uralilaisilla vähemmistökielillä julkaistujen teosten saattaminen avoimesti kaikkien saataville. Tarkemmin sanottuna missiona oli digitoida ja asettaa saataville sellaisia vähemmistökielillä painettuja julkaisuja, joihin kieli- tai tutkimusyhteisöt eivät muutoin pääsisi tutustumaan.

Projektipäällikkö Jussi-Pekka Hakkarainen, Slaavilaisen kirjaston hoitaja Irma Reijonen ja tutkija Jack Rueter Moskovassa huhtikuussa 2013.
Projektipäällikkö Jussi-Pekka Hakkarainen, Slaavilaisen kirjaston hoitaja Irma Reijonen ja tutkija Jack Rueter Moskovassa huhtikuussa 2013.

Konkreettisemmin tämä tarkoitti aineistojen digitointia Venäjän Kansalliskirjaston Kansallisten kirjallisuuksien osaston kokoelmista, minne suurin osa vähemmistökielillä painetuista aineistoista on sijoitettu. Aineistojen digitointi siis suoritettiin paikan päällä Venäjän Kansalliskirjastossa, kun taas skannattujen kuvatiedostojen muokkaus, jälkikäsittely ja käyttöönasettaminen tehtiin Suomen Kansalliskirjastossa. Tätä tarkoitusta varten perustettiin tälle aineistolle oma julkaisuarkisto, joka tunnetaan Fenno-Ugricana.

Fenno-Ugrican julkaisemisen aikoihin keskusteltiin Koneen Säätiön Kieliohjelman tavoin paljon uhanalaisten kielten dokumentoinnista ja siitä, millainen kieliteknologian olisi rooli tässä yhteydessä. Keskeisiksi komponenteiksi kielen dokumentaatiossa voidaan mieltää:

  1. aineistojen tallentaminen, mukaan lukien siihen liittyvän metadatan tuottaminen 
  2. kieliaineistojen siirrettävyys, mm. eri formaatteihin 
  3. arkistointi ja arkistoidun aineiston avoin saavutettavuus  
  4. lisäarvon tuottaminen mm. annotoimalla, transkriboimalla ja linkittämällä 
  5. aineiston mobilisointi, eli sen hyödynnettävyys kolmansissa järjestelmissä 

Kielen dokumentointi tämän määritelmän mukaisesti olisi siis jo hyvin lähellä Kansalliskirjaston perustehtäviä ja esimerkiksi digitoinnin tavoitteita ylipäänsä. Fenno-Ugrica vastaa kaikkiin edellä mainittuihin kielen dokumentoinnin osa-alueisiin, muttei varauksetta.  

Hantinkielisiä kansansatuja lapsille julkaistiin teoksessa Moņset ņavremeta vuonna 1935.
Hantinkielisiä kansansatuja lapsille julkaistiin teoksessa Moņset ņavremeta vuonna 1935.

Kulttuuriaineistojen tallentaminen ja niihin liittyvän kuvailutiedon luominen on Kansalliskirjaston perustyötä, eikä Fenno-Ugrican kohdalla tehty poikkeusta: aineistot on julkaistu ja asianmukaisesti kuvailtu sekä verkkokokoelmaan että kirjastotietokantaan. Aineistot ovat pääosin siirrettävissä, eli ne on tuotettu eri tiedostomuotoihin, kuten PDF:ään, CSV:hen tai XML-tiedostoihin, jotta aineistoja voidaan sekä käyttää perinteisin menetelmin että liikutella eri järjestelmiin uudelleenhyödynnettäväksi. Fenno-Ugrica on myös avoimesti saavutettavissa, eikä aineiston käyttäjiltä vaadita kirjautumis- tai tunnistautumismenettelyjä. Aineisto on lisensoinnin ja datapakettien vuoksi ollut myös mobilisoitavissa kolmansiin järjestelmiin, jonka on mahdollistanut tekijänoikeusyhteistyö venäläisten partnerien kanssa. Näitä kirjaston luomia mahdollisuuksia hyödyntämällä kieliteknologit voivat rikastaa ja muokata aineistoja niillä työskentelymetodeilla ja -välineillä, jotka soveltuvat heidän työhönsä parhaiten. Täten syntyy myös sitä lisäarvoa, jota Kansalliskirjasto ei yksin pysty tuottamaan. 

Miten Fenno-Ugricassa julkaistuja aineistoja käytetään tutkimuksessa? 

Fenno-Ugricalla on keskeinen asema suomalais-ugrilaisten kielten tutkimusaineistojen joukossa. Se muodostaa hyvin laajan kokoelman tietyn ajanjakson lehtiä ja kirjallisuutta, eikä tähän mennessä toteutunut käyttö ole varmasti ehtinyt kuin raapaista pintaa. On selvää, että Fenno-Ugrican käyttö tulevaisuuden tutkimuksessa on noususuuntainen. Toteutuneen tutkimuskäytön myötä on mahdollista muodostaa entistä laajempia ja tarkemmin jäsenneltyjä tutkimusaineistoja Fenno-Ugrican sisällöistä, ja tällaisten datasettien luomisessa ja hyödyntämisessä on otettu vasta ensimmäisiä askeleita.  

Yhdeksi esimerkiksi Fenno-Ugrican tutkimuskäytöstä voi nostaa Karina Lukinin tutkimukset, joissa on käsitelty muun muassa 1930-luvun stereotypioita nenetsikirjallisuudessa sekä kirjallisuudessa esiintyneitä neuvostoideologioita. Lukinin tutkimukset edustavat tekstin lähilukuun ja sisällölliseen analyysiin pohjautuvaa folkloristiikan tutkimussuuntaa. Toisenlainen esimerkki ovat Niko Partasen ja Riku Erkkilän tutkimukset komisyrjäänin väyläsijojen käytöstä, joissa on hyödynnetty Fenno-Ugricasta koostettua oikoluettujen kirjojen kokoelmaa. Partasen ja Erkkilän tutkimus on komin kielen perustutkimusta, jossa melko harvinaista kieliopillista ilmiötä tutkitaan laajan aineiston avulla. Varsinaisten tutkimusten lisäksi Fenno-Ugrican aineistoja on hyödynnetty Universal Dependencies -projektissa, jossa on luotu yhdenmukaisesti käsiteltyjä puupankkeja maailman eri kielistä. Puupankkien avulla suomalais-ugrilaisia kieliä voidaan vertailla paremmin maailman muihin kieliin: tämäkin olisi mahdotonta, ellei avointa ja korkealaatuista aineistoa olisi tarjolla. Työ jatkuu, ja samat aineistot siirtyvät edelleen uusiin ympäristöihin aiempaan työhön nojaten.    

Lev Uspenskin Neljä taistelua -teoksen mansinkielinen käännös on osa paralleelikorpusta.
Lev Uspenskin Neljä taistelua -teoksen mansinkielinen käännös on osa paralleelikorpusta.

Hyvä esimerkki aiempaan aineiston jalostamiseen nojaavista mahdollisuuksista on Kielipankin Korp-palveluun parhaillaan lisättävä Neljä taisteluva -paralleelikorpus. Samat tekstit ovat aiemmin olleet jo mainituissa puupankeissa, joissa niitä on käsitelty vaihe vaiheelta syvällisemmin. Paralleelikorpuksessa aineiston muodostaa Lev Uspenskin nuorisolle suunnattu Четыре боевых случая, jonka aiheena on poliitikko ja kenraali Kliment Vorošilov ja neljä häneen liittyvää Venäjän sisällissodan tapahtumaa. Teoksen kirjallisiin ansioihin puuttumatta sille on kertynyt aivan omanlaistaan arvoa, jonka Fenno-Ugrica tuo näkyväksi, ja joka kytkeytyy teoksen asemaan Neuvostoliiton kielipolitiikassa. Sama kirja on käännetty erittäin monille Neuvostoliiton kielille:  Fenno-Ugricassa on yhdeksän versiota tästä kirjasta eri kielillä.   

Kielipankissa julkaistava Neljä taistelua -paralleelikorpus sisältää Uspenskin teoksen käännökset lauseittain kohdistettuina ja morfosyntaktisesti annotoituina versioina. Käyttäjä voi verrata eri käännöksiä keskenään sekä tarkastella tiettyjen rakenteiden esiintymistä eri kielissä. Osassa käännöksistä on kirjan lopussa erillinen venäjännös, minkä vuoksi korpus sisältää myös useita osin erilaisia venäjän käännöksiä. Tämä on arvokasta esimerkiksi käännöstieteen tutkimuksen kannalta. Samaten kielten kaikki muukin vertaileva tutkimus hyötyy tällaisesta aineistosta, jota on suomalais-ugrilaisten kielten kentällä ollut vähän käytettävissä.  

Osassa paralleelikorpuksen kieliä morfologiset ja syntaktiset kuvaukset on toteutettu erilaisin tarkkuuksin. Tämä heijastelee eri kielten vaihtelevilla tasoilla toimivia kieliteknologian työvälineitä. Käyttäjän on tutustuttava aineistoon tarkasti ja arvioitava automaattisesti tuotettujen analyysien tarkkuutta ja kattavuutta suhteissa omiin tarpeisiinsa. Kieliteknologian työkalujen kehittyessä korpuksen analysointia tullaan kerta kerralta parantamaan. Lisäksi aineistoa käyttävä tutkija voi toimittaa Kielipankkiin korjattuja versioita aineistoista. Tutkimustyö, kuten siinä käytettävät aineistotkaan, eivät ole koskaan valmiita tai täydellisiä.  

Fenno-Ugrican monet aineistot on painettu omalaatuisilla kirjoitusjärjestelmillä, kuten kominkielisiä sanomalehtiä latinalaisilla aakkosilla tai Molodtsovin aakkosilla, eikä kaikkien lehtien palstarakenne ole kovinkaan helposti automaattisesti käsiteltävissä. Jo tehtyyn työhön voidaan olla tyytyväisiä, mutta tälläkin rintamalla on tapahtunut paljon kehitystä viime vuosina: tulevaisuudessa siintääkin jo aika, jolloin Fenno-Ugricasta voidaan irrottaa entistäkin laajempia koneluettavia tekstikokonaisuuksia. Tämä on kuitenkin jotain, mitä voidaan aina tehdä tulevaisuudessa: Fenno-Ugrican kaltaista valtavaa kokoelmaa itsessään ei voida nykyisissä oloissa luoda. Erityisesti kun yhteistyö Venäjälle on mahdotonta, voidaan Fenno-Ugricaa pitää korvaamattomana lähteenä sekä suomalaiselle että kansainväliselle suomalais-ugrilaisten kielten tutkimukselle.