De ældste trykte bøger bliver scannet

Den danske latinsprogede litteratur trykt 1482-1600 OCR-scannes nu i et samarbejde mellem Carlsbergfondet, Aarhus Universitet og Det Kgl. Bibliotek.

En række af gamle trykte bøger

Foto: Karsten Bundgaard

Et stort eScience-projekt i DeIC Nationale Kulturarvscluster på Det Kgl. Bibliotek skal OCR-scanne et omfattende corpus af latinske tekster, der indgår som en del af den danske kulturarv. I spidsen for projektet står professor Marianne Pade, Aarhus Universitet.

De latinske tekster bliver OCR-scannet, OCR står for "Optical Character Recognition", og det betyder, at det bliver muligt at fuldtekstsøge i de latinske tekster. Det har hidtil ikke været muligt at OCR-scanne tidlige trykte bøger med de eksisterende hjælpemidler, men dette har ændret sig med metoden OCR4all, der for nylig er blevet udviklet af en gruppe forskere fra Universität Würzburg, netop med henblik på OCR-scanning af tidlige trykte bøger. 

Projektet vil udnytte den nye metode på et omfattende dansk materiale, der er helt centralt for kendskabet til dansk kultur i senmiddelalder og renæssance.

Alle latinske tekster skal scannes - næsten

På sigt er det planen at scanne alle latinske tekster trykt i det danske område eller skrevet af danskere mellem 1482 og 1600, med undtagelse af udgaver af klassiske latinske forfattere. Teksterne er registreret i Lauritz Nielsen, Dansk Bibliografi I-II (København 1919, 1931-33, 2. forøgede udg. 1996), og for perioden 1536-1600 i Database of Nordic Neo-Latin Literature, med alle nødvendige metadata. Til det danske område regnes her også Norge, Island, Skånelandene og Slesvig. Det omfangsrige corpus er for størstedelens vedkommende allerede tilgængeligt som almindelige billedfiler.