500.000 avissider fra enevælden genskabt som digitale tekstdata
Læs om, hvordan forskere har skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision og segmentere det genkendte tekst.
Foto: ENO – Enevældens Nyheder Online: https://hislab.quarto.pub/eno/
Projektet Enevældens Nyheder Online (ENO) går ud på at genskabe Danmark-Norges aviskorpus fra perioden under enevælde som digitale tekstdata.
““Vores interesse i materialet handler om tematikker som arbejdsmarked, kriminalitet og forbrug. Det Kgl. Biblioteks enorme avissamling er en underudnyttet ressource for social- og kulturhistorisk forskning.
Mere om projektet
| Projektnavn | Enevældens Nyheder Online – ENO |
|---|---|
| Forskere |
|
| Relateret materiale |
|
| Service fra Det Kgl. Bibliotek | Vi brugte materialerne som de er tilgængeliggjort gennem LOAR (https://loar.kb.dk/collections/3933596a-95ca-4927-b55c-3ba948ea6603) samt mediestreams API. |
| Materiale fra Det Kgl. Bibliotek | c. 500.000 avissider i billedform med tilhørende metadata om dato, udgave og sidenummerering. Billederne stammer mestendels fra digitaliseringen af avissamlingens mikrofilm, men vi har også brugt nye affotograferinger af enkelte serier, der ikke var del af den oprindelig avisdigitalisering. |
| Kontakt på Det Kgl. Bibliotek | Spørg biblioteket |
Forskeren fortæller yderligere
På baggrund af udleverede billedfiler og kyndig sparring med Det Kgl. Bibliotek har vi skabt machine learning modeller, der kan genkende både layout og tekst på avissiderne med høj præcision, samt segmentere det genkendte tekst. Vi har blandt andet brugt den nye version til at træne en historisk sprogmodel DA-BERT_Old_News, hvilket gør det muligt at udregne semantisk slægtskab imellem de godt 5 millioner avistekster.