Om indsamling af internetmateriale

Vi har ansvaret for at indsamle og bevare relevant materiale fra den danske del af internettet – dvs. indhold produceret af danskere, på dansk eller til et dansk publikum.

Closeup af server. indre med ledninger

Thomas Søndergaard

Er du ejer af en dansk hjemmeside, har du sandsynligvis haft besøg af de webcrawlere, som vi bruger til at indsamle internetmateriale med. Netarkivet er Danmarks nationale webarkiv, og vi indsamler hele den danske del af internettet to-fire gange om året og bevarer det hele i vores webarkiv.

Vores webcrawlere efterlader en signatur med en url til denne side, når de indsamler materiale. På den måde fortæller vi, at vi har været forbi, og at vi ikke er hackere.

Oplever du problemer, har du spørgsmål om vores webcrawlere eller forslag til forbedringer, er du meget velkommen til at kontakte os. Materialet i webarkivet må kun benyttes til videnskabelige formål, fordi det indeholder følsomme personoplysninger. Læs mere under forskningsadgang.

Indsamling af internetmateriale

Hjemmesider findes i alle størrelser, men de fleste er meget små – eller slet ikke i brug. For at indsamle effektivt starter vi med at lave en lille høstning med en max grænse på fx 10Mb pr. domæne. Statistikkerne viser nemlig, at mere end 75% af alle danske hjemmesider er mindre end denne grænse.

Resultaterne fra den første høstning bruger vi til at finde ud af, hvilke domæner der er aktive og til at gruppere de danske domæner efter størrelse. Herefter følger vi op med større høstninger og sorterer dem fra, der nåede grænsen i de tidligere høstninger, hvilket betyder, at et mindre antal filer på større hjemmesider bliver høstet flere gange.

Når vi indsamler materiale til vores webarkiv, bruger vi open-source høsteren Heritrix, som er udviklet af Internet Archive i samarbejde med webarkiver og biblioteker fra hele verden.

Herunder kan du læse mere om vores arbejde med at indsamle internetmateriale og få svar på nogle af de oftest stillede spørgsmål i forbindelse med arbejdet.

På rigtig mange hjemmesider styrer robots.txt søgemaskinernes webcrawlere uden om materiale, som er helt nødvendigt for at kunne genskabe den korrekte oplevelse af en hjemmeside, som den så ud på et givent tidspunkt.

Vores erfaringer viser, at hvis vi indsamler med respekt for robots.txt, går vi glip af store mængder vitale data – fx avisernes hjemmesider – men også titusindvis af private hjemmesider, som vi anser som væsentlige bidrag til den danske kulturarv. Efter helt samme princip har vi også mulighed for at tilsidesætte HTML-meta-tags.

Vores User Agent finder du i følgende snip:

<map name=”http-headers”>

<string name=”user-agent”>Mozilla / 5.0 (compatible; kb.dk_bot; heritrix/3.4.0 +https://www.kb.dk/netarkivindsamling) Firefox / 57<string>

<string name=”from”>kb@kb.dk</string>

Du må meget gerne kontakte os på kb@kb.dk, hvis vores webcrawlere skaber problemer for din hjemmeside.

Det vil hjælpe os meget, hvis du i mailen skriver følgende:

  • En liste af de berørte domæner (f.eks. minhjemmeside.dk)
  • Domæne IP-adresser (f.eks. 178.79.164.53, 130.226.229.32 etc.)
  • Domæne ’alias’ dvs. identiske hjemmesider med forskellige domænenavne
  • Eksempler på problemet (screenshots, logs og lignende)

Vi bestræber os på, at vores webcrawler ikke overbelaster din server. Således har vi et minuts delay til samme host på 0,3 sekund mellem hver request (max et sekund). Hvis du oplever, at vores webcrawler belaster din hjemmeside, skal du kontakte os, så vi kan afhjælpe problemet.

Hvis din hjemmeside indeholder mange ens kopier af det samme materiale (mirroring), og det opleves som et problem, at vi henter alle kopier, skal du også kontakte os.

Vi ønsker ikke at få brugernes passwords til hverken webmail, bank eller lignende. Vi vil gerne oprette Netarkivet som “bruger”, så vi kan læse fx de nyhedssites, der kræver login – eventuelt mod betaling. Vi ønsker at indsamle det, som alle brugere kan få adgang til. Det er nemmest for os, hvis du giver vores webcrawler adgang via IP-validering. Vi kontakter dig angående muligheden.

Pligtafleveringsloven gør det muligt for os, at vi få adgang til passwordbeskyttet indhold uden betaling.

Materiale, der kun er beregnet for en lukket skare, og som alle derfor ikke i princippet kan få adgang til – fx lukkede familiehjemmesider, firmaers intranet m.m., anses ikke for offentliggjort, og de falder derfor ikke ind under bestemmelsen.

Teknisk skal man huske at skelne mellem POST og GET forespørgsler via http-protokollen. Se f.eks.: www.w3.org

Vores webcrawler finder links blandt andet via regulære udtryk, men vi sender altid kun GET-requests afsted. Hvis webserveren i den anden ende også reagerer på GET på URL'er, der egentlig kun var beregnet til POST, så er det en programfejl i de scripts, der modtager forespørgslerne.

Det er pligtafleveringsloven, der tillader, at vi indsamler materiale, der er underlagt ophavsret. Med hensyn til sidernes relevans er princippet i indsamlingen, at det i videst muligt omfang er fremtidens forskere, der afgør relevansen, snarere end diverse aktører på indsamlingstidspunktet.

Pligtaflevering dokumenterer vores samfund for eftertiden. Intet af det materiale, vi indsamler, bliver slettet, fordi det bliver for gammelt. 

Bliver vi opmærksomme på, at vi bliver forhindret i indsamle en hjemmeside, kontakter vi ejeren af hjemmesiden og prøver at finde frem til en løsning, der tilgodeser både hjemmesideejerens behov og vores lovmæssige forpligtigelse til at indsamle og bevare den danske kulturarv på internettet.

Hvis vi ikke kan blive enige, kan vi i sidste ende gå rettens vej - jf. Lov om pligtaflevering, § 21.

For at undgå at blokere vores crawler skal du lægge vores IP-adresser i blokeringsmekanismen, som tilladte IP-numre.

Vores crawler kommer pt. fra følgende IP-adresser:

130.225.26.54
130.225.26.132
130.225.26.133
130.225.26.135
130.225.26.136
130.225.26.139
130.226.228.72
130.226.228.73
130.226.228.74
130.226.228.75
130.226.228.76
130.226.228.79
130.226.228.80
130.226.228.81
130.226.228.82
130.226.228.83
130.226.228.84
130.226.228.85