paragraaf

Reizen door het web: werk maken van webarchivering

paragraaf Progress:

Webarchivering is het proces van het verzamelen van onderdelen van het Wereld Wijde Web, het preserveren van deze collecties in een archiveerbaar formaat en het aanbieden van deze archieven voor toegang en hergebruik | International Internet Preservation Consortium

Informatie op websites is vluchtig en zeer beperkt houdbaar. Dat maakt de urgentie om werk te maken van webarchivering evident. Online informatie geeft namelijk een uniek inzicht in het tijdbeeld. Willen we onze cultuurhistorie levend houden dan is het zaak websites en uitingen op sociale media te selecteren en preserveren. Ook vanuit andere perspectieven is werk maken van webarchivering essentieel. Denk aan archiefwettelijke plichten (overheidsinformatie) en wetenschappelijke, juridische en journalistieke belangen.

Er is onzekerheid over de toekomst van de pagina waarnaar je linkt | Herbert van de Sompel, informatiewetenschapper

Informatie op het web is vluchtig en fragiel door twee redenen:

  • Linkrot
    Digitale objecten kunnen linken naar bronnen op het internet – bronnen die veranderen in de tijd. Soms worden ze verwijderd. En als informatie weg is, is het over het algemeen ook echt weg. Soms verhuist informatie van de ene naar de andere plek. Als het webadres waarnaar gelinkt wordt niet meer bestaat, krijg je bij een poging het adres te bezoeken een 404-foutmelding. Dat heet linkrot. De bron bestaat nog wel, maar niet op deze plek. Het inzetten van persistent identifiers is daar een oplossing voor.
  • Content drift
    Een groter probleem dan het verhuizen van online content is dat de inhoud van de bron zelf ook verandert. Dat heet ‘content drift’. Een digitaal object legt een link van bron A naar bron B maar bron B verandert in de tijd. Als dat gebeurt, is de authenticiteit van de verwijzende bron A in het geding. Als bron B zich dan ook nog op het open web bevindt, kun je er niet zonder meer op vertrouwen dat B er iets aan gaat doen om de inhoud stabiel te houden. Die verantwoordelijkheid ligt dan bij A. Daarom moet A een snapshot van B maken op het moment dat A daarheen linkt. Met welke tools dit kan, komt later in deze paragraaf aan bod.
Fasen in webarchivering

Webarchivering bestaat grofweg uit vier fasen: Waardering en selectie, harvesting, preservering en toegang. Hieronder worden deze fasen nader toegelicht:

  • Fase 1: Waardering en selectie
    Vragen die je in fase 1 beantwoordt, zijn bijvoorbeeld:
    • Hoe bepaal je welke (onderdelen van) websites je waarom wilt archiveren?
    • Is er sprake van een wettelijke taak?
    • Is het archiveren van websites beschreven in het duurzaamheidsbeleid?
    • Voor welke doelgroep ga je websites archiveren?
    • Wat mag er juridisch? In veel landen is de archivering van webcontent juridisch niet goed geregeld. Om toch vaart tee kunnen maken, is momenteel de meest gebruikte aanpak de zogeheten opt-out aanpak. In de casus hieronder lees je hier meer over.
    • Hoe stem je af met andere webarchieven?

Casus beleid webarchivering en duurzaamheidsbeleid

In het duurzaamheidsbeleid van Beeld en Geluid staat de volgende passage over het archiveren van websites:

From the perspective of preservation and provenance, the collection can be classified as follows:

E. Websites
Websites on media culture are collected on a regular basis since 2014. Currently, Sound and Vision holds a collection of approximately 300 archived sites. The aim is to establish a webarchive that contains a representative selection from each of the collection domains defined by
Sound and Vision, insofar as these domains have an online presence on broadcasters’ websites, fan pages, forums and blogs and in interactive online documentaries. The selection process will take the contents of other Dutch web archives, such as the Royal Library, the National Archive and the regional archives into account. Sound and Vision has pragmatically decided on an opt-out agreement with website owners. Due to copyright restraints, the web archive can only be accessed on site.

Het belang van samenwerken: Nationaal register webarchieven

Om dubbel werk te voorkomen en samenwerking bij webarchivering te stimuleren, ontwikkelde het Netwerk Digitaal Erfgoed het Nationaal Register Webarchieven. Dit register biedt een doorzoekbaar overzicht van in Nederland gearchiveerde websites. Hier vind je door welke organisatie deze zijn gearchiveerd, sinds en tot wanneer, met welke frequentie deze worden binnengehaald, welke software hiervoor gebruikt is en met welke reden deze websites zijn gearchiveerd. In september 2020 staan er 18083 websites vermeld in dit register.

  • Fase 2: Harvest
    In deze fase ga je aan de slag en kies je de juiste tool voor je doel. Harvesting (ook wel crawling of capture) is een proces waarbij een script wordt gebruikt om een grote hoeveelheid gegevens automatisch te extraheren uit websites. Er zijn grofweg twee manieren om het web te ‘oogsten’: Bij een zogeheten domain crawl haal je zoveel mogelijk websites binnen maar dat doe je maar oppervlakkig. Bij een zogeheten selective crawl probeer je de hele website binnen te halen en al het materiaal dat op de website aanwezig is. Een combinatie van beide methoden is gebruikelijk.
    Bekende tools voor het ‘oogsten’ van het web zijn Web Curator Tool, Heritrix en Brozzler en metadataharvesting via het OAI-PMH protocol. Web Curator Tool is mede ontwikkeld door de Koninklijke Bibliotheek die er al ruim 15.000 websites mee gearchiveerd heeft.
    Er zijn ook commerciële diensten die het web voor je crawlen zoals archive-it.org en archiefweb.eu. Het zijn vaak de kleinere organisaties die een bescheiden aantal websites archiveren die voor dit soort diensten kiezen.

DIY: Een aantal tools voor tijdreizigers

Als je op een website stuit, welke mogelijkheden heb je dan om te bekijken of er al ergens een oudere versie gearchiveerd is? En hoe draag je zelf bij aan het maken van deelbare snapshots? Vier tools die je gemakkelijk zelf uit kunt proberen:

1. Timetravel helpt bij het vinden van versies van webpagina’s die bestonden op een bepaald moment in het verleden. Als je het webadres van een pagina plus een tijd in het verleden invoert, probeert Timetravel zogeheten memento’s (momentopnamen) te vinden in een groot scala aan webarchieven. Er zijn twee opties: Find en Reconstruct. Daar waar Find één bepaalde snapshot van een website rond de door jou ingevoerde datum op probeert te halen, probeert Reconstruct verschillende snapshots uit verschillende webarchieven rondom dezelfde datum aan elkaar te plakken. Probeer het maar eens uit voor de website van jouw instelling.

2. Installeer de Memento time travel plugin in de webbrowser Chrome. Dan maak je het checken van oudere versies van websites deel van je workflow.

3. Maak gebruik van de ‘save page now’ optie van het Internet Archive. ‘Capture a web page as it appears now for use as a trusted citation in the future’, zegt het Internet Archive daarover.

4. Gebruik Conifer webrecorder om een interactieve opname te maken van hoe een website er nu uit ziet. Het nadeel van deze tool is dat het een arbeidsintensief klusje is om door een hele webpagina heen te klikken terwijl de tool het resultaat opneemt; het voordeel is dat de tool laagdrempelig is in het gebruik en dat je er bijvoorbeeld ook dynamische webcontent mee kunt archiveren.

  • Fase 3: Preservering
    Gedownloade files worden gecheckt op kwaliteit en indien nodig geconverteerd naar een stabiel bestandstype. Crawlers maken vaak automatisch een zogeheten WARC ((Web ARChive) file. Het is een internationale standaard voor webarchivering welke de relatie tussen gecrawlde webpagina’s en gerelateerde content behoudt.
  • Fase 4: Toegang
    Toegang geven is het on-site of online beschikbaarstellen van het webarchief. Dit is uitsluitend mogelijk met toestemming van rechthebbenden. Het internet archive is een prachtig voorbeeld van hoe toegang eruit kan zien.
Zelf beginnen met webarchivering?
Casus webarchivering: de website van De Oversteek gearchiveerd

De eerste website die het Regionaal Archief Nijmegen (RAN) heeft gearchiveerd is de site over de bouw van stadsbrug De Oversteek in de periode 2008-2014, samengesteld door fotograaf Thea van den Heuvel in opdracht van de gemeente Nijmegen. Deze gearchiveerde website is niet online beschikbaar. Websites bestaan uit verschillende onderdelen, die samen het geheel vormen. Deze onderdelen kunnen ieder op zichzelf beschermd zijn door het auteursrecht en andere intellectuele eigendomsrechten. Soms leidt dat ertoe dat websites alleen in de studiezaal te bekijken zijn.

RAN wil haar websites zo compleet mogelijk archiveren, inclusief vormgeving, beeld- en geluidsmateriaal en links. Daardoor blijven de websites functioneel en ogen en werken ze als ‘live’-websites. Door het archiveren periodiek te herhalen ontstaan er meerdere momentopnamen van dezelfde website. In eerste instantie richt RAN zich op websites die van het internet dreigen te verdwijnen, of die een grote toegevoegde waarde hebben op de eigen collecties en archieven.

De websites worden gearchiveerd via archiefweb.eu. Archiefweb.eu archiveert websites en sociale media van organisaties die moeten voldoen aan de Archiefwet 1995.

Het jargon

Content drift


Er is sprake van ‘content drift’ als de inhoud van een bron in de tijd zodanig verandert dat deze niet langer representatief is voor de originele inhoud.

Harvesting


Harvesting is een proces waarbij een script wordt gebruikt om een grote hoeveelheid gegevens automatisch te extraheren uit websites. Bekende voorbeelden zijn webharvesting met tools zoals Web Curator en metadataharvesting via het OAI-PMH protocol Er zijn grofweg twee manieren om het web te ‘oogsten’: Bij een zogeheten domain crawl haal je zoveel mogelijk websites binnen maar dat doe je maar oppervlakkig. Bij een zogeheten selective crawl probeer je de hele website binnen te halen en al het materiaal dat op de website aanwezig is. Een combinatie van beide methoden is gebruikelijk.

Linkrot


Er is sprake van linkrot als een bron op het WWW waarnaar verwezen wordt, niet langer beschikbaar is.

WARC files


WARC staat voor Web ARChive. Het is een internationale standaard voor webarchivering welke de relatie tussen gecrawlde webpagina’s en gerelateerde content behoudt. Het WARC-bestandsformaat is een internationale norm: ISO 28500:2017. Standaardisatie is een voorwaarde voor digitale duurzaamheid.

Webarchivering


Webarchivering is het proces van het verzamelen van onderdelen van het Wereld Wijde Web, het preserveren van deze collecties in een archiveerbaar formaat en het aanbieden van deze archieven voor toegang en hergebruik.

Meer weten?

Comments

  1. Jacqueline Rutjens

    Misschien aardig om de richtlijn webarchivering van het Nationaal Archief toe te voegen dat december 2018 is vastgesteld, en het Rijkskader webarchivering dat door CIO Rijk is vastgesteld (contactpersoon Jeanine van Dijk, RDDI)

  2. Bart Magnus

    Ik mis hier nog een beetje gidsing in de tools met betrekking tot webarchivering. Bijvoorbeeld: waarom werd hier voor de dienst Amberlink gekozen? Is de duurzaamheid van de aanbieder niet de belangrijkste factor bij deze keuze? Ik zou verwachten dat dat dan The Internet Archive zelf is (https://web.archive.org), waar je zelf ook pagina’s ter archivering kan toevoegen.

    Plan van aanpak webarchivering van het Regionaal Archief Nijmegen is niet toegankelijk voor niet-ingelogden.

    1. Marina Noordegraaf Post author

      @bartmagnus

      Dank voor je vraag. Discussiëren over de pros en cons van dit soort keuzes is m.i. juist waar ‘Leren Preserveren’ over gaat. Amberlink is een WordPress plugin die is gericht op het preserveren van links vanuit deze leeromgeving. Ze is dus gericht op het preserveren van de context. Wil je de webpagina an sich preserveren, kies je inderdaad beter voor The Internet Archive.
      Voor dit specifieke geval twijfel ik persoonlijk op dit moment of we niet toch beter een broken link checker kunnen installeren als plugin, Ligt ook een beetje aan of je verwacht dat content alleen zal verschuiven (in dat geval zoek je er bij een broken link notificatie het juiste webadres bij) of dat content van het web zou kunnen verdwijnen en hoe erg dat is …

      En dank voor de oplettendheid wat betreft het moeten inloggen om het plan van aanpak webarchivering van RAN te mogen bekijken. Had ik – ingelogd zijnde – niet in de gaten. Ik heb binnen het forum op Pleio zojuist gevraagd of ik het plan van aanpak direct via de leeromgeving zou mogen delen.

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.