Arkiv for dansk litteratur
Datasættet er en delmængde af teksterne i Arkiv for dansk litteratur. Datasættet er fri af ophavsret, og giver hurtigt adgang til et velstruktureret tekstkorpus med henblik på digital analyse.
Foto: Erik Henningsen
Materialet bag datasættet
Arkiv for Dansk Litteratur (ADL) er en litteraturhistorisk samling med udvalgte digitaliserede værker fra den ældre danske litteratur, fra middelalderen og frem til midt i det 20. århundrede. ADL er resultatet af et mangeårigt samarbejde mellem Det Kgl. Bibliotek og Det Danske Sprog- og Litteraturselskab. Det er en ressource for forskning, undervisning og bred formidling af ældre dansk litteratur, og rummer lige nu værker af 78 forfattere. Teksterne er gengivet efter trykte standardudgaver. Teksterne stilles til rådighed på et websted, og for mange af værkerne er det muligt både at læse den digitaliserede og søgbare tekst, samt at se faksimiler (affotografering af den originale trykte udgave).
Om datasættet
Datasættet er en delmængde af teksterne i ADL. Datasættet giver hurtigt adgang til et velstruktureret tekstkorpus med henblik på digital analyse.
Datasættet består af 156 værker fra 1851 til 1945. Forfatterne er hovedsageligt fremtrædende forfattere fra perioden, eksempelvis N. F. S. Grundtvig, Edvard Brandes og Herman Bang.
Datasættet kan benyttes til at demonstrere forskellige text mining teknikker, som for eksempel kollokationer og til at analysere nøgleord i moderne dansk, litteratur og historie. Man kan også lave forskellige subsets og undersøge bestemte forfatteres værker eventuelt i sammenligning med andre forfattere.
Datasættet er fri af ophavsret.
Datasættets tilblivelse
De digitaliserede tekstsider er OCR-behandlet og derefter semantisk opmærket i TEI P5-formatet. ADL blev lanceret første gang i 2001. Den aktuelle version af webstedet er fra 2020. Datasættet som kan downloades er samlet i 2025 af Det Kgl. Bibliotek, for at give let adgang til analyse af det store tekstkorpus med digitale værktøjer.
Find datasæt og vejledningsmateriale
- Du kan søge og læse teksterne enkeltvis i adgangsløsningen tekster.kb.dk
- Download datasættet på bibliotekets open access-arkiv, LOAR.
- Find vejledning og kodeeksempler i Python i Github
- Materialet kan også tilgås via Det Kgl. Biblioteks API