Finländska webbarkivet

Finländska webbarkivet innehåller ett representativt och mångsidigt urval av internet i Finland. 

Innehållsförteckning

Nätmaterial har lagrats i Finländska webbarkivet sedan 2006, och i arkivet samlas material från webbplatser (till exempel htm- och html-webbplatser) och sociala medier (till exempel Twitter, Youtube, Facebook och Tiktok). Samlingen omfattar över 4 300 miljoner filer (cirka 300 terabyte). 

Via webbarkivets register kan du till exempel bläddra bland de URL-adresser som finns sparade i arkivet, eller i innehåll från sociala medier och videor. Registret finns på adressen https://verkkoarkisto.kansalliskirjasto.fi

Materialet i webbarkivet finns endast tillgängligt via dataterminaler för friexemplarsmaterial. Mer information hittar du på sidan Användning av friexemplarsmaterial

Du kan skicka in förslag på innehåll att samla in på sidan https://verkkoarkisto.kansalliskirjasto.fi/foresla

Aktivera statistikcookies för att visa den inbäddade YouTube-videon
Following frame contains a video

Insamling i webbarkivet

Nationalbiblioteket samlar in finländskt nätinnehåll och nätinnehåll som gäller finländare i enlighet med kulturmateriallagen. Målet är att utföra lagringen på ett så automatiserat sätt som möjligt. 

Om lagring inte är möjlig till exempel på grund av betalväggar eller registreringskrav, kan Nationalbiblioteket be utgivaren att möjliggöra insamling och lagring eller att överlåta materialet. För att Nationalbiblioteket ska kunna lagra sådant material krävs samarbete med nätutgivare och nätförläggare. 

Webbarkivet avbildar internet i Finland som det ser ut vid lagringstidpunkten. Vid lagringen används olika program beroende på det material som ska samlas in. Lagringsprogrammen kan till exempel vara skapade i internationellt samarbete, gränssnitt som tillhandahålls av nättjänsterna själva eller program som utvecklats av Nationalbiblioteket. Utöver nätmaterial lagrar vi metadata om insamlingen och säkerställer det digitala bevarandet av materialet på lång sikt. 

Nationalbiblioteket deltar i arbetet för att utveckla lagring och tillförfogandeställande av nätmaterial tillsammans med International Internet Preservation Consortium (IIPC). 

Material som inte samlas in 

Nätmaterial som inte samlas in är t.ex.: 

  • nätmaterial med påfallande ringa innehåll när det gäller information, bild eller ljud (t.ex. nätbutikers ljud- och bildprov, e-blanketter och systemprogram som distribueras på nätet)
  • register och databaser som är sådana handlingar som avses i arkivlagen (831/1994), eller som består av sådana handlingar.

Detta material kan trots allt bli infört i webbarkivet i samband med den automatiska insamlingen. 

Finlandsinsamlingar

Insamlingen av inhemskt webbmaterial genomförs automatiskt en gång om året med insamlingsprogrammet Heritix. I Finlandsinsamlingen lagras webbplatser med ändelserna .fi och .ax samt andra webbplatser som identifierats som finskspråkiga. I denna insamling väljs de webbplatser som ska lagras inte ut på basis av deras ämne, tema eller innehåll. 

Innehållet i insamlingen kommer från cirka 600 000 webbplatser. 

Den automatiska programvaran kan inte samla in allt inhemskt nätmaterial, t.ex. avgiftsbelagda nätpublikationer och databaser täcks inte av den automatiska insamlingen. Samarbete mellan nätutgivare och förlag krävs för att denna typ av nätmaterial kan ska kunna arkiveras. 

Temainsamlingar

Temainsamlingarna kompletterar Finlandsinsamlingarna. Temainsamlingar samlar och lagrar nätmaterial om ett visst ämne eller en viss aktuell händelse på ett så heltäckande sätt som möjligt. Utöver webbplatser lagras också innehåll från sociala mediekanaler. 

Temainsamlingar görs till exempel om ämnen som:

  • politiska och samhälleliga händelser, fenomen och förändringar (till exempel val, statsbesök, strejker, internationella konferenser) 
  • nationella händelser (till exempel idrottstävlingar och kulturevenemang) 
  • världspolitiska händelser (till exempel konflikter och krig) eller naturkatastrofer.

Det webbinnehåll som lagras som en del av i en temainsamling kartläggs antingen av Nationalbiblioteket eller tillsammans med samarbetspartner. Insamlingar kan genomföras tillsammans med aktörer såsom museer, arkiv, forskningsinstitut, forskare och entusiaster. 

Du kan föreslå ämnen eller webbinnehåll för temainsamlingar genom att fylla i formuläret som finns på adressen https://verkkoarkisto.kansalliskirjasto.fi/foresla

Kontinuerliga insamlingar

Nationalbiblioteket har samlat in webbnyheter och webbtidningar sedan 2009 och Twitter-innehåll sedan 2020. 

Du kan föreslå ämnen eller innehåll genom att fylla i formuläret som finns på adressen https://verkkoarkisto.kansalliskirjasto.fi/foresla

Tidningsinsamling 

Tidningsinsamlingen omfattar inhemska webbtidningar och tidningarnas webbplatser. Dessa samlas in dagligen, veckovis eller månadsvis beroende på hur ofta webbplatserna uppdateras. Insamlingen av webbtidningar påbörjades 2009 med hjälp av webbtidningslistan Suoma. 

Twitter-insamlingen  

Den kontinuerliga Twitter-insamlingen inleddes 2020 och omfattar finländska Twitter-konton. I insamlingen ingår både organisationers och fysiska personers konton. Antalet konton i insamlingen uppgår till cirka 3 500 (2022). 

Insamlingen kan bland annat omfatta ämnen som: 

  • medier
  • kulturinstitut
  • universitet, högskolor och andra läroanstalter
  • statsförvaltning
  • kommuner
  • rättsväsendet
  • politiker (till exempel presidenten, riksdagsledamöter, ministrar, EU-parlamentariker, före detta politiker)
  • fackföreningsrörelsen och näringslivet
  • partier, föreningar, frivilligorganisationer, idrottsorganisationer
  • författare, musiker, skådespelare och andra konstnärer
  • andra offentliga personer och personer som är aktiva i sociala medier 
  • andliga och religiösa aktörer.

Teknisk data angående den automatiska insamlingen

Nationalbiblioteket samlar in material främst t.ex. med hjälp av sökroboten Heritrix. De huvudsakliga målen för insamlingen är webbplatser, men även filer samlas in (t.ex. från FTP-servrar). Insamlingarna genomförs parallellt så att den belastning som en enstaka webbserver utsätts för fördelar sig över en lång tidsperiod och den totala belastningen på nätet förblir liten. Inte ens de mest omfattande insamlingarna har orsakat en märkbar ökning av filöverföringar på stamnätsnivå. Meddela oss om eventuella belastningstoppar per e-post på adressen [email protected]

Vid insamlingen av webbplatser identifierar sig Nationalbibliotekets sökrobot genom att använda följande värden för http-fält: 

User-Agent: Mozilla/5.0 (compatible; heritrix/3.4.0+https://www.kansalliskirjasto.fi/en/legal-deposit-office#online-material

From: [email protected] 

Vid insamlingarna används innehållet i den s.k. robots.txt-filen. Nationalbiblioteket kan bestämma sig för att samla in material som skyddas av robots.txt-filen om materialet anses betydelsefullt för insamlingen. 

De insamlade filerna och sådan datakommunikation som uppstått på protokollnivå vid filöverföringen sparas som sådana i filformatet WARC. Nationalbiblioteket lagrar dessa arkivfiler i sina datasystem. 

Frågor om den automatiska insamlingen kan skickas till [email protected]