Gå til hovedindholdet

500.000 avissider fra enevælden genskabt som digitale tekstdata

Læs om, hvordan forskere har skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision og segmentere det genkendte tekst.

Merkur omgivet af et banner med det latinske motto "MUNDIVE LOCIOR AURACO"

Foto: ENO – Enevældens Nyheder Online: https://hislab.quarto.pub/eno/

Projektet Enevældens Nyheder Online (ENO) går ud på at genskabe Danmark-Norges aviskorpus fra perioden under enevælde som digitale tekstdata. 

Vores interesse i materialet handler om tematikker som arbejdsmarked, kriminalitet og forbrug. Det Kgl. Biblioteks enorme avissamling er en underudnyttet ressource for social- og kulturhistorisk forskning.

- Johan Heinsen, Aalborg Universitet

Mere om projektet

ProjektnavnEnevældens Nyheder Online – ENO
Forskere
  • Johan Heinsen, professor, Institut for Politik og Samfund, Aalborg Universitet
  • Camilla Bøgeskov, ph.d.-studerende, Institut for Politik og Samfund, Aalborg Universitet
Relateret materiale
Service fra Det Kgl. BibliotekVi brugte materialerne som de er tilgængeliggjort gennem LOAR (https://loar.kb.dk/collections/3933596a-95ca-4927-b55c-3ba948ea6603) samt mediestreams API.
Materiale fra Det Kgl. Bibliotekc. 500.000 avissider i billedform med tilhørende metadata om dato, udgave og sidenummerering. Billederne stammer mestendels fra digitaliseringen af avissamlingens mikrofilm, men vi har også brugt nye affotograferinger af enkelte serier, der ikke var del af den oprindelig avisdigitalisering.
Kontakt på Det Kgl. BibliotekSpørg biblioteket


Forskeren fortæller yderligere

På baggrund af udleverede billedfiler og kyndig sparring med Det Kgl. Bibliotek har vi skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision, samt segmentere det genkendte tekst. Vi har blandt andet brugt den nye version til at træne en historisk sprogmodel DA-BERT_Old_News, hvilket gør det muligt at udregne semantisk slægtskab imellem de godt 5 millioner avistekster.

Se hvordan andre har brugt kulturarvssamlingerne