Gå til hovedindholdet Change language to English

Danmarks Breve

Digitaliseringerne af Danmarks Breve gør det muligt at søge på tværs af brevudgivelser. Man kan for eksempel finde breve fra samme afsender, selvom brevene ikke er blevet trykt i samme udgivelse.

Håndskrevet brev

Foto: Ophav ukendt

Materialet bag datasættet

Samlingen Danmarks Breve indeholder digitaliseringer af en lang række trykte brevudgivelser fra bibliotekets samlinger, udgivet over en længere årrække af mange forskellige udgivere. Afsendere og modtagere er oftest ledende og magtfulde personer med indvirkning på dansk politisk og kulturel historie.  Der er lige nu over 13.000 breve fra 1500-tallet til 1937. Samlingen som helhed indeholder over 70.000 breve, der løbende bliver frigivet, efterhånden som ophavsretten på brevudgivelserne udløber.  

Digitaliseringerne gør det muligt at søge på tværs af brevudgivelser. Man kan for eksempel finde breve fra samme afsender, selvom brevene ikke er blevet trykt i samme udgivelse.  Det er også muligt at lave fuldtekstsøgning for at undersøge, om en afsender benytter bestemte ord eller fraser. Og endelig har Danmarks Breve gjort det nemmere at benytte bibliotekets mange brevudgivelser, uanset hvor i verden man befinder sig.

Fremsøg og se de digitaliserede breve.

Om datasættet

Datasættet består af: 

  1. En mappe med de xml-filer, der indeholder de cirka 13.000+ breve, som er beskrevet ovenfor.
  2. En .txt-fil indeholdende en dansk stopordsliste med stopord fra det 18., 19. og 20. århundrede.
  3. En .csv-fil, der indeholder brevtekst og tilhørende bibliografiske metadata. Brevteksten er i to kolonner. I den ene (raw_text) fremstår teksten rå som trukket ud af xml filen. I den anden (text_st) er teksten renset for tab, newline og bindestreg, og der er indsat mellemrum før almindelige grammatiske tegn som punktum, komma og udråbstegn.  

Metadata er forsøgt harmoniseret, og de harmoniserede data er indsat i nye kolonner. I harmoniseringen er eksempelvis navne og steder så vidt muligt standardiseret, hvilket konkret vil sige, at hvis der i et brev for eksempel står, at det er afsendt fra enten Christiania, Kristiania eller Oslo, så vil der i den standardiserede kolonne stå, at det er afsendt fra Oslo. De vigtigste metadatafelter består af afsender (sender_st), modtager (recipiant_st) og årstal (year_st). 

Datasættet kan eksempelvis benyttes til statistik og plot af afsender- og modtagernetværk. Det kan også udvælge en kohorte af bestemte historiske personer, for eksempel bestemte kvinder, eller bestemte erhverv, for eksempel soldater, og undersøge deres breves tekstindhold. Undersøgelser af semantiske felter og følelser ville også være en mulighed. Endelig er der også mulighed for at undersøge brevenes geografiske entiteter og foretage rummelige analyser. 

Datasættet er fri af ophavsret.

Datasættets tilblivelse

Datasættet er skabt på baggrund af de data, som også ligger bag adgangsløsningen. Som udgangspunkt stammer metadata fra de originale trykte brevudgivelser. Digitalisering og metadatering er foretaget af Det Kgl. Bibliotek. I forbindelse med digitaliseringen er en del metadata fra brevudgivelserne blevet harmoniseret for at forenkle søgningen. I visse tilfælde har denne harmonisering givet nye metadata. Udgivelsesprincipperne for de enkelte brevudgivelser kan være forskellige, da værkerne er udgivet over en lang årrække og af mange forskellige brevudgivere.  

Tegngenkendelsen for de trykte breve er omkring 99 %, hvilket betyder, at der enkelte steder vil være fejl i den digitale tekst. Tegngenkendelsen er desuden lidt lavere ved visse fremmedsprog og ved tekster trykt med fraktur (gotiske bogstaver). 

Find datasæt og vejledningsmateriale