500.000 avissider fra enevælden genskabt som digitale tekstdata

Læs om, hvordan forskere har skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision og segmentere det genkendte tekst.

Merkur omgivet af et banner med det latinske motto "MUNDIVE LOCIOR AURACO" — Foto: ENO – Enevældens Nyheder Online: https://hislab.quarto.pub/eno/

Projektet Enevældens Nyheder Online (ENO) går ud på at genskabe Danmark-Norges aviskorpus fra perioden under enevælde som digitale tekstdata.

Vores interesse i materialet handler om tematikker som arbejdsmarked, kriminalitet og forbrug. Det Kgl. Biblioteks enorme avissamling er en underudnyttet ressource for social- og kulturhistorisk forskning.

- Johan Heinsen, Aalborg Universitet

Mere om projektet

Projektnavn	Enevældens Nyheder Online – ENO
Forskere	Johan Heinsen, professor, Institut for Politik og Samfund, Aalborg Universitet Camilla Bøgeskov, ph.d.-studerende, Institut for Politik og Samfund, Aalborg Universitet
Relateret materiale	Johan Heinsen og Anders Dyrborg Birkemose, “Efterlyst: Identitet, tvang og mobilitet, 1750-1850”, TEMP 14:27, 2023: 24-53. Projektets data-platform Projektets sprogmodel
Service fra Det Kgl. Bibliotek	Vi brugte materialerne som de er tilgængeliggjort gennem LOAR (https://loar.kb.dk/collections/3933596a-95ca-4927-b55c-3ba948ea6603) samt mediestreams API.
Materiale fra Det Kgl. Bibliotek	c. 500.000 avissider i billedform med tilhørende metadata om dato, udgave og sidenummerering. Billederne stammer mestendels fra digitaliseringen af avissamlingens mikrofilm, men vi har også brugt nye affotograferinger af enkelte serier, der ikke var del af den oprindelig avisdigitalisering.
Kontakt på Det Kgl. Bibliotek	Spørg biblioteket

Forskeren fortæller yderligere

På baggrund af udleverede billedfiler og kyndig sparring med Det Kgl. Bibliotek har vi skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision, samt segmentere det genkendte tekst. Vi har blandt andet brugt den nye version til at træne en historisk sprogmodel DA-BERT_Old_News, hvilket gør det muligt at udregne semantisk slægtskab imellem de godt 5 millioner avistekster.

500.000 avissider fra enevælden genskabt som digitale tekstdata

Mere om projektet

Forskeren fortæller yderligere

Se hvordan andre har brugt kulturarvssamlingerne

OCR-skanning af 839 bøger fra Det Kgl. Biblioteks udlånssamling

1600-tallets dødelighedskriser i et sønderjysk landsogn

Det danske webs historie 1992-1997