Hyppää pääsisältöön

”Turho hölyhtys” on nyt “turha hälyytys” Digitoidun sanomalehtiaineiston sisältöhaun parannukset käytössä

Julkaisupäivä

Kansalliskirjaston koko vanhin digitoitu sanomalehtiaineisto vuosilta 1771–1914 käsitellään uudestaan siten, että sen tekstintunnistus ja samalla tekstiin kohdistuvien hakujen osuvuus paranevat merkittävästi. Tekstintunnistus on erittäin oleellinen osa digitoitujen historian lähdeaineistojen laatua ja käytettävyyttä. Sanomalehtikokoelman kielet ovat suomi ja ruotsi. Parempilaatuinen aineisto on saatettu käytettäväksi vaiheittain kesästä 2021 alkaen ja käyttöön on saatettu tähän mennessä noin 90 % lehdistä.

Myös valikoima vuosien 1915–18 tutkimukselle ja yhteiskunnalle keskeisiä lehtiä saatetaan käyttöön uudelleen käsiteltyinä: lehtinimekkeet ovat Uusi Aura, Uusi Suometar, Helsingin Sanomat, Åbo Underrättelser, Västra Finland ja Hufvudstadsbladet. 

Yhteensä parempilaatuista sanomalehtimateriaalia tulee saataville lähes 2,5 miljoonaa sivua digi.kansalliskirjasto.fi:hin. Kansalliskirjasto suunnittelee myös osaan muista 1910-luvulla ilmestyneistä sanomalehdistä uutta tekstintunnistusta.

 

Sisältöhakujen osuvuus paranee merkittävästi

Aiempiin tekstintunnistuksen tuloksiin verrattuna uudelleen käsitellyn aineiston laatu on huomattavasti parempaa, keskimäärin 17 prosenttiyksikköä. Tekstintunnistuksessa on käytetty apuna Transkribus-alustaa, joka on alun perin kehitetty käsin kirjoitetun tekstin tunnistamiseen, mutta jota on menestyksekkäästi sovellettu myös painettuun aineistoon Horizon 2020 -ohjelmasta rahoitetussa NewsEye—projektissa. Kansalliskirjasto on projektissa mukana.

Sanomalehtiaineiston tekstintunnistuksen parannukset kohdistuvat vanhempaan kirjaintyyppiin fraktuuraan, jonka tunnistuskyvykkyys Transkribuksessa on parempaa kuin aiemmin käytössä olleissa ohjelmissa.

Parempilaatuisten digitaalisten sanomalehtiaineistojen käyttöön saattaminen on tehty Digitaalinen avoin muisti -projektissa. Työssä on hyödynnetty Euroopan Unionin Horizon-ohjelman NewsEye-projektissa kehitettyä automaattisen tekstintunnistuksen mallia ja tehty yhteistyötä eurooppalaisen READ-COOP-osuuskunnan kanssa. Kansalliskirjasto on NewsEye-projektin ja READ-COOP-osuuskunnan jäsen. NewsEye-projekti (newseye.eu) on kehittänyt ohjelmallisia työkaluja digitoitujen historiallisten sanomalehtien tutkimukseen ja käyttämiseen. READ-COOP-osuuskunta (readcoop.eu) kehittää historiallisten aineistojen käytettävyyttä tekoälyn avulla.

Kansalliskirjasto Digi-palvelu: https://digi.kansalliskirjasto.fi/etusivu

Lue lisää Tietolinjan artikkelista: https://tietolinja.kansalliskirjasto.fi/2021-2/2102-digi/

 

 

Yhteyshenkilö

Minna Kaukonen
0504155450
50100 MIKKELI
Saimaankatu 6
Kansalliskirjasto