Gå til hovedindhold

Vi har ansvaret for at indsamle og bevare relevant materiale fra den danske del af internettet – dvs. indhold produceret af danskere, på dansk eller til et dansk publikum.

NetarkivetBuet tunnel af binære tal iStock

Vi har indsamlet materiale fra internettet siden juli 2005. Indsamlingen sker automatisk med en såkaldt "høster", som er software udviklet til at kunne indsamle internetmateriale.

Hvad indsamler vi?

Vi indsamler kun offentligt tilgængeligt materiale fra internettet. Privat indhold (med begrænset adgang) som fx interne familie-websites eller firmaers intranet er ikke offentlige, og vi indsamler det derfor ikke.

Vi anvender forskellige strategier for indsamling:

  1. Tværsnitindsamling som tager et øjebliksbillede af alle danske domæner op til fire gange årligt
  2. Selektiv indsamling fra følgende typer hjemmesider: alle danske nyhedsmedier (fra 12 gange dagligt til ugentligt), politiske partier, organisationer og foreninger, ministerier og styrelser, udvalgte profiler fra sociale medier, YouTube videoer (fx ugentlig)
  3. Begivenhedsindsamling af to-tre begivenheder årligt (fx folketingsvalg eller coronaepidemien)
  4. Specialindsamlinger (fx ud fra forskerønske)

Hensigten med de forskellige strategier er, at de kombineret med hinanden giver den bedst mulige dækning af, hvad der offentliggøres på den danske del af internettet.

Netarkivet indeholder både data og metadata (beskrivende data), og begge dele stilles til rådighed for forskningsprojekter på Kulturarvsclusteret

Mængden af webmateriale i arkivet vokser i øvrigt løbende. Primo 2020 indeholdt arkivet ca. 640 TB i 1024 tal. Det er en tilvækst på over 100 TB i løbet af et år.

Hvordan arbejder høsteren?

Netarkivet er ikke en kopi af det levende internet. Ved hjælp af en høster (Heritrix 3) indsamles indholdet maskinelt og gemmes i et særligt format (Warc-Format). Netarkivets indhold kan fremvises med en wayback machine, der ligner den Internet Archive bruger.

Høsteren skal fodres med URL’er (links), og vi bestemmer, hvordan den skal følge dem, og hvordan den skal indsamle det, den støder på. Vil vi høste en forside eller en enkelt artikel, skal høsteren kun indsamle alle elementer (billeder, stylesheets mv.) for at opbygge siden. Vil vi høste en temasektion, skal høsteren udover at opbygge temaforsiden hoppe et til to niveauer ned i sitet for at få de artikler med, som der linkes til fra forsiden. Ved tværsnitshøstningerne får høsteren at vide, at den skal indsamle hele sitet.

Derudover skal vi fortælle høsteren, hvor hyppigt et givent link skal indsamles.

Tekniske begrænsninger

Vores indsamlingssoftware og visningsværktøj har desværre tekniske begrænsninger, og derfor har vi problemer med:

  • at høste specielle typer af url indlejringer og image tags i javascript 
  • at høste streaming af lyd og levende billeder (video)
  • at vise en del https baserede sider (specielt fra de social medier som Reddit, Twitter, YouTube og Facebook) 

Vi arbejder sammen med webarkiver verden over (IIPC) og vores samarbejdspartnere omkring kurateringsværktøjet NetarchiveSuite for at finde løsninger på høstnings- og visningsproblemer.

Netarkivets logoDet Kgl. Bibliotek

Tip os om url'er

Kender du danske hjemmesider, der ikke ender med.dk? Check dem her og indberet dem, hvis de ikke findes i arkivet.

Er du samarbejdspartner?

Vi indgår partnerskaber med eksperter, forskere mm. for at kvalificere tematiske indsamlinger. Til indsamlingen bruger vi værktøjet BCWeb. Find manualen her