Helsingin yliopiston kirjasto, Suomen kansalliskirjasto
kansi   lukijalle   esipuhe   kirjoittajat   galleria


Kirja  tietoverkkojen maailmassa

 «

    aihepiirit    

  I  

  II  

  III  

  IV  

  V  

  VI  

» 




Lingvistinkin apuna


Slaavilaisen kirjaston uusi elektroninen vetonaula
1 Aluksi
2 Velan vastikkeeksi
3 Uskomattomat tietovarannot
4 Haku päällä
5 Myös englanniksi
6 Lingvistinkin apuna
* Lähteet
tulosta Tulostettava versio
Integrum ei ole varsinaisesti tarkoitettu tutkimuskäyttöön. Sen keskeinen käyttäjäkunta ovat yritykset sekä virastot ja muut julkisen sektorin tiedon tarvitsijat. Heitä varten Integrum tarjoaa moninaisia informaationseurantapalveluita ja suuri osa materiaalista on valittu heitä silmällä pitäen. Integrum on kuitenkin myös Venäjä-tutkijan aarreaitta. Eniten siitä hyötyvät yhteiskunnan, politiikan ja talouden tutkijat. Kaikki Integrumin sisältämä tieto on varmasti olemassa myös jossakin muualla, missään se ei ole kuitenkaan saatavilla niin kompaktissa ja helposti käytettävässä muodossa. Aineistolle on varmasti käyttöä, jos tutkii esimerkiksi Tarja Halosen kuvaa venäläisessä lehdistössä, huumeiden torjuntaa Itä-Siperiassa, Venäjän alkoholilainsäädännön kehitystä viime Stalinin ajoista nykypäivään tai Venäjän patenttitoimen länsimaistumista. Oma kokemukseni on se, että itse aineisto nostaa esiin tutkimuskysymyksiä, joita aikaisemmin ei ole tullut ajatelleeksi. Uskon, että Suomen Akatemian uuden Muuttuva Venäjä -tutkimusohjelman tutkijoille Integrum-materiaali muodostaa tärkeä työkalun.

Kielentutkijana minua tietysti kiinnostaa, missä määrin materiaalia voidaan käyttää kielitieteellisissä tutkimuksissa. Jotta kysymykseen voisi vastata, on ensin lyhyesti kuvattava lingvistisessä tutkimuksessa käytettäviä aineistoja. Ne voidaan karkeasti jakaa neljään ryhmään. Yksinkertaisimmillaan aineisto koostuu tavallisesta tekstistä, jota ei ole käsitelty millään tavalla. Tällaisia aineistoja voidaan käyttää erityisesti sanojen käytön tutkimuksessa. Esimerkkien hyödynnettävyyttä voidaan lisätä ohjelmilla, jotka antavat tiettyjen parametrien avulla sanojen käyttöympäristön sekä edestä että takaa. Seuraavan aineistoryhmän muodostavat tekstit, joissa on suoritettu morfologinen analyysi. Tällöin aineisto kertoo, että tekstissä esiintyvä sana kirjastossa on sanan kirjasto yksikön inessiivimuoto. Morfologinen analyysi voidaan suorittaa automaattisesti käyttämällä esimerkiksi professori Kimmo Koskenniemen (1983) kehittämää kaksitasomallia. Sen pohjalta on laadittu myös venäjän kieltä analysoiva ohjelma. Ongelmaksi muodostuvat kuitenkin sananmuodot, jotka voidaan tulkita eri tavoin, esimerkiksi teillä on sekä sanan tie että sanan te muoto. Prosessia jonka avulla tulkinta tehdään yksiselitteiseksi, kutsutaan disambiguoinniksi. Ihminen pystyy yleensä helposti tulkitsemaan oikein monitulkintaiset muodot ja jopa käyttämään niitä vitsien ja sutkausten pohjana. Koneellisessa analyysissä ne ovat kuitenkin suuri ongelma. Ratkaisuna käytetään muun muassa professori Fred Karlssonin kehittämää rajoitekielioppia (ks. esim. Karlsson & al. 1995). Venäjän kieleen sitä on sovellettu hiljattain ilmestyneessä Alexander Pailen pro gradu -tutkielmassa. Näin käsitelty aineisto muodostaa kolmannen kategorian. Tämän lisäksi tarvitaan sellaisia aineistoja, joissa on tietoa myös lauseiden syntaktisista ja semanttisista ominaisuuksista. Vain pieni osa tällaisesta analyysistä voidaan automatisoida. Tämän johdosta aineiston laajuudesta joudutaan tinkimään. Esimerkiksi Helsingin yliopiston slavistiikan ja baltologian laitoksella laadittava HANCO-korpus kattaa noin 100 000 sanaa.

Integrum-materiaali kuuluu yllämainitussa luokittelussa ensimmäiseen kategoriaan. Sen vuoksi se soveltuu sellaisenaan vain sanaston tutkimiseen. Aikadimensio ja tekstityyppien kategorisointi tekee siitä tehokkaan välineen tällaisessa tutkimuksessa. Kirsi Kemppinen tutki pro gradu -työssään englannin sanojen distributor ja brand tuloa venäjän kieleen. Integrum-aineiston avulla voidaan tarkkaan osoittaa, milloin sanat ilmestyivät alan spesiaalilehtiin ja milloin yleisaikakauslehtiin. Samalla voidaan seurata sitä, miten sanojen venäjänkielinen kirjoitusasu on muuttunut. Tämä on esimerkki myös siitä, että hyvä aineisto herättää itsessään tutkimuskysymyksiä. Käsipelillä vastaavan aineiston kahlaaminen olisi vaatinut kuukausien työn. Nyt tilastoaineisto ja esimerkkimateriaali voitiin kerätä viikossa ja näin energia voitiin kohdistaa aineiston tarkempaan analyysiin ja johtopäätösten tekemiseen.

Tietyin edellytyksin Integrum-aineistoa voidaan käyttää myös morfologisissa ja syntaktisissa tutkimuksissa. Tällöin on kuitenkin kyettävä jotenkin sanatasolla yksilöimään haettava tutkimusmateriaali. Tämäntyyppisestä tutkimuksesta sopii esimerkiksi venäjän erikoinen syntaktinen rakenne tyyppiä Lodku uneslo vetrom. Se on tietynlainen aktiivi- ja passiivilauseen sekamuoto: objekti on akkusatiivisissa kuten aktiivilauseessa, mutta aiheuttaja on instrumentaalissa kuten passiivilauseessa. Tyyppinen käyttöympäristö rakenteelle ovat tilanteet, joissa tapahtuu jotakin yllättävää (usein negatiivista) esimerkiksi luonnonilmiöiden johdosta. Jos kyseistä esimerkkiä yrittäisi kääntää rakennetarkasti, niin suomenkielinen vastine voisi olla Veneen vei tuulen voimasta. Rakennetta on tietysti tutkittu, mutta yleensä artikkeleissa pyörivät samat parikymmentä esimerkkiä. Aineiston hankinnan ongelmana on se, että vaikka rakenne on täysin käyttökelpoinen ja hyväksyttävä nykyvenäjässä, se on varsin harvinainen. Kun Inna Reuss teki aiheesta pro gradu –tutkielman (2002), hän löysi läpikäymistään kahdesta romaanista yhteensä kaksi esimerkkiä. Kun pohdimme, miten voisimme käyttää Integrumia saadaksemme laajemman aineiston, emme aluksi keksineen mitään keinoa, koska kieliopillisen muodon tai syntaktisen rakenteen perusteellahan hakua ei voida suorittaa. Sitten oivalsimme, että lauseissa esiintyy rajallinen määrä verbejä, jotka ovat (lähes) aina tietyssä muodossa (preteritin neutrimuoto). Laadimme yhdessä listan verbeistä ja suoritimme sillä perusteella hakuja. Näin pystyimme luomaan ainutlaatuisen noin 3000 tapauksen esimerkkikokoelman, joka mahdollistaa rakenteen tutkimisen aivan uusista lähtökohdista.

Paras osoitus Integrum-aineiston käyttökelpoisuudesta venäjän kielen tutkimuksessa ovat laitoksellamme vierailevien venäläisten tutkijoiden reaktiot. Kun esittelemme aineiston käyttömahdollisuudet heille, tiedämme kokemuksesta, että he käyttävät kaiken käytettävissä olevan ajan materiaalin hyödyntämiseen.


«  1  2  3  4  5  6  *  »
URN:NBN:fi-fe20031613