Om indsamling af internetmateriale

Vi har ansvaret for at indsamle og bevare relevant materiale fra den danske del af internettet – det vil sige indhold produceret af danskere, på dansk eller til et dansk publikum.

Closeup af server. indre med ledninger — Foto: Thomas Søndergaard

Er du ejer af en dansk hjemmeside, har du sandsynligvis haft besøg af de webcrawlere, som vi bruger til at indsamle internetmateriale med. Netarkivet er Danmarks nationale webarkiv, og vi indsamler hele den danske del af internettet to-fire gange om året og bevarer det hele i vores webarkiv.

Vores webcrawlere efterlader en signatur med en url til denne side, når de indsamler materiale. På den måde fortæller vi, at vi har været forbi, og at vi ikke er hackere.

Oplever du problemer, har du spørgsmål om vores webcrawlere eller forslag til forbedringer, er du meget velkommen til at kontakte os. Materialet i webarkivet må kun benyttes til videnskabelige formål, fordi det indeholder følsomme personoplysninger. Læs mere om forskningsadgang.

Indsamling af internetmateriale

Hjemmesider findes i alle størrelser, men de fleste er meget små – eller slet ikke i brug. For at indsamle effektivt starter vi med at lave en lille høstning med en max grænse på for eksempel 10Mb pr. domæne. Statistikkerne viser nemlig, at mere end 75% af alle danske hjemmesider er mindre end denne grænse.

Resultaterne fra den første høstning bruger vi til at finde ud af, hvilke domæner der er aktive og til at gruppere de danske domæner efter størrelse. Herefter følger vi op med større høstninger og sorterer dem fra, der nåede grænsen i de tidligere høstninger, hvilket betyder, at et mindre antal filer på større hjemmesider bliver høstet flere gange.

Når vi indsamler materiale til vores webarkiv, bruger vi open-source høsteren Heritrix, som er udviklet af Internet Archive i samarbejde med webarkiver og biblioteker fra hele verden.

Herunder kan du læse mere om vores arbejde med at indsamle internetmateriale og få svar på nogle af de oftest stillede spørgsmål i forbindelse med arbejdet.

Hvorfor ignorerer jeres webcrawlere robots.txt?

På rigtig mange hjemmesider styrer robots.txt søgemaskinernes webcrawlere uden om materiale, som er helt nødvendigt for at kunne genskabe den korrekte oplevelse af en hjemmeside, som den så ud på et givent tidspunkt.

Vores erfaringer viser, at hvis vi indsamler med respekt for robots.txt, går vi glip af store mængder vitale data – for eksempel avisernes hjemmesider – men også titusindvis af private hjemmesider, som vi anser som væsentlige bidrag til den danske kulturarv. Efter helt samme princip har vi også mulighed for at tilsidesætte HTML-meta-tags.

Vores User Agent finder du i følgende snip:

<string name = ”user-agent”> Mozilla / 5.0 (compatible; kb.dk_bot; heritrix / 3.4.0 + https: //www.kb.dk/netarkivindsamling) Firefox / 57 <string>

Oplever du tekniske problemer med vores webcrawlere?

Du må meget gerne kontakte os på kb@kb.dk, hvis vores webcrawlere skaber problemer for din hjemmeside.

Det vil hjælpe os meget, hvis du i mailen skriver følgende:

En liste af de berørte domæner (for eksempel minhjemmeside.dk)
Domæne IP-adresser (for eksempel 178.79.164.53, 130.226.229.32 etc.)
Domæne ’alias’ det vil sige identiske hjemmesider med forskellige domænenavne
Eksempler på problemet (screenshots, logs og lignende)

Vi bestræber os på, at vores webcrawler ikke overbelaster din server. Således har vi et minuts delay til samme host på 0,3 sekund mellem hver request (max et sekund). Hvis du oplever, at vores webcrawler belaster din hjemmeside, skal du kontakte os, så vi kan afhjælpe problemet.

Hvis din hjemmeside indeholder mange ens kopier af det samme materiale (mirroring), og det opleves som et problem, at vi henter alle kopier, skal du også kontakte os.

Forsøger jeres webcrawler at indsamle passwordbeskyttet materiale?

Vi ønsker ikke at få brugernes passwords til hverken webmail, bank eller lignende. Vi vil gerne oprette netarkivet som “bruger”, så vi kan læse for eksempel de nyhedssites, der kræver login – eventuelt mod betaling. Vi ønsker at indsamle det, som alle brugere kan få adgang til. Det er nemmest for os, hvis du giver vores webcrawler adgang via IP-validering. Vi kontakter dig angående muligheden.

Pligtafleveringsloven gør det muligt for os, at vi få adgang til passwordbeskyttet indhold uden betaling.

Materiale, der kun er beregnet for en lukket skare, og som alle derfor ikke i princippet kan få adgang til – for eksempel lukkede familiehjemmesider, firmaers intranet med mere, anses ikke for offentliggjort, og de falder derfor ikke ind under bestemmelsen.

Udfylder jeres webcrawler også formularer/forms?

Teknisk skal man huske at skelne mellem POST og GET forespørgsler via http-protokollen. Se for eksempel: www.w3.org.

Vores webcrawler finder links blandt andet via regulære udtryk, men vi sender altid kun GET-requests afsted. Hvis webserveren i den anden ende også reagerer på GET på URL'er, der egentlig kun var beregnet til POST, så er det en programfejl i de scripts, der modtager forespørgslerne.

Pligtafleveringsloven tillader vores indsamlinger

Det er pligtafleveringsloven, der tillader, at vi indsamler materiale, der er underlagt ophavsret. Med hensyn til sidernes relevans er princippet i indsamlingen, at det i videst muligt omfang er fremtidens forskere, der afgør relevansen, snarere end diverse aktører på indsamlingstidspunktet.

Pligtaflevering dokumenterer vores samfund for eftertiden. Intet af det materiale, vi indsamler, bliver slettet, fordi det bliver for gammelt.

Bliver vi opmærksomme på, at vi bliver forhindret i at indsamle en hjemmeside, kontakter vi ejeren af hjemmesiden og prøver at finde frem til en løsning, der tilgodeser både hjemmesideejerens behov og vores lovmæssige forpligtigelse til at indsamle og bevare den danske kulturarv på internettet.

Hvis vi ikke kan blive enige, kan vi i sidste ende gå rettens vej - jævnfør Lov om pligtaflevering, § 21.

IP-adresserne til vores webcrawler

For at undgå at blokere vores crawler skal du lægge vores IP-adresser i blokeringsmekanismen, som tilladte IP-numre.

Vores crawler kommer pt. fra følgende IP-adresser:

130.225.26.54
130.225.26.132
130.225.26.133
130.225.26.135
130.225.26.136
130.225.26.139
130.226.228.72
130.226.228.73
130.226.228.74
130.226.228.75
130.226.228.76
130.226.228.79
130.226.228.80
130.226.228.81
130.226.228.82
130.226.228.83
130.226.228.84
130.226.228.85
130.226.228.86
130.226.228.87
130.226.228.88
130.226.228.89
130.226.228.90
130.226.228.91
130.226.228.92
130.226.228.93
130.226.228.94
130.226.228.95
130.226.228.96
130.226.228.97
130.226.228.98