Hoppa till huvudinnehåll

Förbättringar av innehållssökning i bruk för digitaliserat tidningsmaterial

Datum publicerat

Nationalbibliotekets äldsta digitaliserade tidningsmaterial från 1771 till 1914 kommer att omarbetas på ett sådant sätt att dess textigenkänning och samtidigt relevansen av sökningar kommer att förbättras avsevärt. OCR är en mycket viktig del av kvaliteten och användbarheten av digitaliserat historiskt källmaterial. Språken i tidningssamlingen är finska och svenska. Material av bättre kvalitet har gjorts tillgängligt i etapper sedan sommaren 2021 och cirka 90 % av tidningarna har hittills gjorts tillgängliga.

Ett urval av tidskrifter som är viktiga för forskning och samhälle 1915–18 återinförs också: titlarna är Uusi Aura, Uusi Suometar, Helsingin Sanomat, Åbo Underrättelser, Västra Finland och Hufvudstadsbladet.

Totalt kommer nästan 2,5 miljoner sidor tidningsmaterial med bättre kvalitet att finnas tillgängliga på digi.kansalliskirjasto.fi. Nationalbiblioteket planerar också nytt textigenkänning för några av de andra tidningarna som publicerades på 1910-talet.

Innehållssökningarnas relevans kommer att förbättras avsevärt

Jämfört med tidigare OCR-resultat är kvaliteten på det upparbetade materialet betydligt bättre, i genomsnitt 17 procentenheter. OCR har fått hjälp av Transkribus-plattformen, som ursprungligen utvecklades för att känna igen handskriven text men som också framgångsrikt har tillämpats på tryckt material i det Horizon 2020-finansierade NewsEye-projektet. Nationalbiblioteket är med i projektet.

Förbättringar av textigenkänning av tidningsmaterial riktas mot en äldre typfaktor som har bättre igenkänningsförmåga i Transkribus än tidigare använda program.

Införandet av digitalt tidningsmaterial av bättre kvalitet har gjorts i projektet Digital Open Memory. Arbetet har utnyttjat den automatiska textigenkänningsmodellen som utvecklats i NewsEye-projektet inom EU:s Horizon-program och samarbetat med det europeiska READ-COOP-kooperativet. Nationalbiblioteket är medlem i NewsEye-projektet och READ-COOP-kooperativet. NewsEye-projektet (newseye.eu) har utvecklat mjukvaruverktyg för forskning och användning av digitaliserade historiska tidningar. READ-COOP kooperativet (readcoop.eu) utvecklar användbarheten av historiskt material med hjälp av artificiell intelligens.

Läs mer på Tietolinjas artikel: https://tietolinja.kansalliskirjasto.fi/2021-2/2102-digi/

digi.nationalbiblioteket.fi

 

 

Kontaktperson

Minna Kaukonen
0504155450
50100 MIKKELI
Saimaankatu 6
Kansalliskirjasto