paragraaf

Reizen door het web: werk maken van webarchivering

paragraaf Progress:

Informatie op websites is vluchtig en zeer beperkt houdbaar. Dat maakt de urgentie om werk te maken van webarchivering evident. Toch worden websites van de centrale overheid  volgens een onderzoek van de Erfgoedinspectie (2016) nog maar nauwelijks gearchiveerd. Ook in een pleidooi voor meer samenwerking bij webarchivering in Nederland (pdf) valt te lezen dat er nog veel werk te verzetten is in Nederland.
En dat is hard nodig: online informatie geeft namelijk een uniek inzicht in het tijdbeeld. Willen we onze cultuurhistorie levend houden dan is het zaak websites en uitingen op sociale media te selecteren en preserveren. Ook vanuit andere perspectieven is werk maken van webarchivering essentieel. Denk aan archiefwettelijke plichten (overheidsinformatie) en wetenschappelijke, juridische en journalistieke belangen.

Linkrot en content drift

Er is onzekerheid over de toekomst van de pagina waarnaar je linkt | Herbert van de Sompel, informatiewetenschapper

Wat maakt informatie op het web zo vluchtig? De problemen zijn tweeërlei:

  • Linkrot
    Digitale objecten kunnen linken naar bronnen op het internet – bronnen die veranderen in de tijd. Soms worden ze verwijderd of verhuizen ze naar een andere plek. Als het webadres waarnaar gelinkt wordt niet meer bestaat, krijg je bij een poging het adres te bezoeken een 404-foutmelding. Dat heet linkrot. En persistent identifiers zijn daar een oplossing voor.
  • Content drift
    Een groter probleem dan het verhuizen van online content is dat de inhoud van de bron zelf ook verandert. Dat heet ‘content drift’. Een digitaal object legt een link van bron A naar bron B maar bron B verandert in de tijd. Als dat gebeurt, is de authenticiteit van de verwijzende bron A in het geding. Als bron B zich dan ook nog op het open web bevindt, kun je er niet zonder meer op vertrouwen dat B er iets aan gaat doen om de inhoud stabiel te houden. Die verantwoordelijkheid ligt dan bij A. Daarom moet A een snapshot van B maken op het moment dat A daarheen linkt. Dat kan bijvoorbeeld door de momentopname actief te laten archiveren via webarchieven zoals archive-it.org, archiefweb.eu.
Tips voor tijdreizigers
  • Timetravel helpt bij het vinden van versies van webpagina’s die bestonden op een bepaald moment in het verleden. Als je het webadres van een pagina plus een tijd in het verleden invoert, probeert Timetravel zogeheten memento’s (momentopnamen) te vinden in een groot scala aan webarchieven. Er zijn twee opties: Find en Reconstruct. Daar waar Find één bepaalde snapshot van een website rond de door jou ingevoerde datum op probeert te halen, probeert Reconstruct verschillende snapshots uit verschillende webarchieven rondom dezelfde datum aan elkaar te plakken. Probeer het maar eens uit voor de website van jouw instelling.
  • Installeer de Memento time travel plugin in de webbrowser Chrome. Dan maak je het checken van oudere versies van websites deel van je workflow.
  • Maak gebruik van de ‘save page now’ optie van het Internet Archive. ‘Capture a web page as it appears now for use as a trusted citation in the future’, zegt het Internet Archive daarover.
  • Gebruik webrecorder om een opname te maken van hoe een website er nu uit ziet.
Casus webarchivering: de website van De Oversteek gearchiveerd

De eerste website die het Regionaal Archief Nijmegen (RAN) heeft gearchiveerd is de site over de bouw van stadsbrug De Oversteek in de periode 2008-2014, samengesteld door fotograaf Thea van den Heuvel in opdracht van de gemeente Nijmegen. Deze gearchiveerde website is ook online beschikbaar. Dat spreekt niet voor zich. Websites bestaan namelijk uit verschillende onderdelen, die samen het geheel vormen. Deze onderdelen kunnen ieder op zichzelf beschermd zijn door het auteursrecht en andere intellectuele eigendomsrechten. Soms leidt dat ertoe dat websites alleen in de studiezaal te bekijken zijn.

RAN wil haar websites zo compleet mogelijk archiveren, inclusief vormgeving, beeld- en geluidsmateriaal en links. Daardoor blijven de websites functioneel en ogen en werken ze als ‘live’-websites. Door het archiveren periodiek te herhalen ontstaan er meerdere momentopnamen van dezelfde website. In eerste instantie richt RAN zich op websites die van het internet dreigen te verdwijnen, of die een grote toegevoegde waarde hebben op de eigen collecties en archieven.

De websites worden gearchiveerd via archiefweb.eu. Archiefweb.eu archiveert websites en sociale media van organisaties die moeten voldoen aan de Archiefwet 1995.

Het jargon

Content drift


Er is sprake van ‘content drift’ als de inhoud van een bron in de tijd zodanig verandert dat deze niet langer representatief is voor de originele inhoud.

Harvesting


Harvesting is een proces waarbij een script wordt gebruikt om een grote hoeveelheid gegevens automatisch te extraheren uit websites. Bekende voorbeelden zijn webharvesting met tools zoals Web Curator en metadataharvesting via het OAI-PMH protocol.

Linkrot


Er is sprake van linkrot als een bron op het WWW waarnaar verwezen wordt, niet langer beschikbaar is.

Webarchivering


Webarchivering is een containerbegrip voor het binnenhalen en bewaren van websites en van uitingen op sociale media.

Meer weten?
Zelf beginnen met webarchivering?

Comments

  1. Bart Magnus

    Ik mis hier nog een beetje gidsing in de tools met betrekking tot webarchivering. Bijvoorbeeld: waarom werd hier voor de dienst Amberlink gekozen? Is de duurzaamheid van de aanbieder niet de belangrijkste factor bij deze keuze? Ik zou verwachten dat dat dan The Internet Archive zelf is (https://web.archive.org), waar je zelf ook pagina’s ter archivering kan toevoegen.

    Plan van aanpak webarchivering van het Regionaal Archief Nijmegen is niet toegankelijk voor niet-ingelogden.

    1. Marina Noordegraaf Post author

      @bartmagnus

      Dank voor je vraag. Discussiëren over de pros en cons van dit soort keuzes is m.i. juist waar ‘Leren Preserveren’ over gaat. Amberlink is een WordPress plugin die is gericht op het preserveren van links vanuit deze leeromgeving. Ze is dus gericht op het preserveren van de context. Wil je de webpagina an sich preserveren, kies je inderdaad beter voor The Internet Archive.
      Voor dit specifieke geval twijfel ik persoonlijk op dit moment of we niet toch beter een broken link checker kunnen installeren als plugin, Ligt ook een beetje aan of je verwacht dat content alleen zal verschuiven (in dat geval zoek je er bij een broken link notificatie het juiste webadres bij) of dat content van het web zou kunnen verdwijnen en hoe erg dat is …

      En dank voor de oplettendheid wat betreft het moeten inloggen om het plan van aanpak webarchivering van RAN te mogen bekijken. Had ik – ingelogd zijnde – niet in de gaten. Ik heb binnen het forum op Pleio zojuist gevraagd of ik het plan van aanpak direct via de leeromgeving zou mogen delen.