Reizen door het web: werk maken van webarchivering
Webarchivering is het proces van het verzamelen van onderdelen van het Wereld Wijde Web, het preserveren van deze collecties in een archiveerbaar formaat en het aanbieden van deze archieven voor toegang en hergebruik | International Internet Preservation Consortium
Informatie op websites is vluchtig en zeer beperkt houdbaar. Dat maakt de urgentie om werk te maken van webarchivering evident. Online informatie geeft namelijk een uniek inzicht in het tijdbeeld. Willen we onze cultuurhistorie levend houden, dan is het zaak websites en uitingen op sociale media te selecteren en preserveren. Ook vanuit andere perspectieven is werk maken van webarchivering essentieel. Denk aan archiefwettelijke plichten (overheidsinformatie) en wetenschappelijke, juridische en journalistieke belangen.
Er is onzekerheid over de toekomst van de pagina waarnaar je linkt | Herbert van de Sompel, informatiewetenschapper
Informatie op het web is vluchtig en fragiel door twee redenen:
- Linkrot
Digitale objecten kunnen linken naar bronnen op het internet – bronnen die veranderen in de tijd. Soms worden ze verwijderd. En als informatie weg is, is het over het algemeen ook echt weg. Soms verhuist informatie van de ene naar de andere plek. Als het webadres waarnaar gelinkt wordt niet meer bestaat, krijg je bij een poging het adres te bezoeken een 404-foutmelding. Dat heet linkrot. De bron bestaat nog wel, maar niet op deze plek. Het inzetten van persistent identifiers is daar een oplossing voor. - Content drift
Een groter probleem dan het verhuizen van online content is dat de inhoud van de bron zelf ook verandert. Dat heet ‘content drift’. Een digitaal object legt een link van bron A naar bron B, maar bron B verandert in de tijd. Als dat gebeurt, is de authenticiteit van de verwijzende bron A in het geding. Als bron B zich dan ook nog op het open web bevindt, kun je er niet zonder meer op vertrouwen dat B er iets aan gaat doen om de inhoud stabiel te houden. Die verantwoordelijkheid ligt dan bij A. Daarom moet A een snapshot van B maken op het moment dat A daarheen linkt. Met welke tools dit kan, komt later in deze paragraaf aan bod.
Fasen in webarchivering
Webarchivering bestaat grofweg uit vier fasen: Waardering en selectie, harvesting, preservering en toegang. Hieronder worden deze fasen nader toegelicht:
- Fase 1: Waardering en selectie
Vragen die je in fase 1 beantwoordt, zijn bijvoorbeeld:- Hoe bepaal je welke (onderdelen van) websites je waarom wilt archiveren?
- Is er sprake van een wettelijke taak?
- Is het archiveren van websites beschreven in het duurzaamheidsbeleid?
- Voor welke doelgroep ga je websites archiveren?
- Wat mag er juridisch? In veel landen is de archivering van webcontent juridisch niet goed geregeld. Om toch vaart te kunnen maken, is momenteel de meest gebruikte aanpak de zogeheten opt-out aanpak. In de casus hieronder lees je hier meer over.
- Hoe stem je af met andere webarchieven?
Casus beleid webarchivering en duurzaamheidsbeleid
In het duurzaamheidsbeleid van Beeld en Geluid staat de volgende passage over het archiveren van websites:From the perspective of preservation and provenance, the collection can be classified as follows:
E. Websites
Websites on media culture are collected on a regular basis since 2014. Currently, Sound and Vision holds a collection of approximately 300 archived sites. The aim is to establish a web archive that contains a representative selection from each of the collection domains defined by
Sound and Vision, insofar as these domains have an online presence on broadcasters’ websites, fan pages, forums and blogs and in interactive online documentaries. The selection process will take the contents of other Dutch web archives, such as the Royal Library, the National Archive and the regional archives into account. Sound and Vision has pragmatically decided on an opt-out agreement with website owners. Due to copyright restraints, the web archive can only be accessed on site.
Het belang van samenwerken: Nationaal register webarchieven
Om dubbel werk te voorkomen en samenwerking bij webarchivering te stimuleren, ontwikkelde het Netwerk Digitaal Erfgoed het Nationaal Register Webarchieven. Dit register biedt een doorzoekbaar overzicht van in Nederland gearchiveerde websites. Hier vind je door welke organisatie deze zijn gearchiveerd, sinds en tot wanneer, met welke frequentie deze worden binnengehaald, welke software hiervoor gebruikt is en met welke reden deze websites zijn gearchiveerd. In september 2020 staan er 18083 websites vermeld in dit register.
- Fase 2: Harvest
In deze fase ga je aan de slag en kies je de juiste tool voor je doel. Harvesting (ook wel crawling of capture) is een proces waarbij een script wordt gebruikt om een grote hoeveelheid gegevens automatisch te extraheren uit websites. Er zijn grofweg twee manieren om het web te ‘oogsten’: Bij een zogeheten domain crawl haal je zoveel mogelijk websites binnen maar dat doe je maar oppervlakkig. Bij een zogeheten selective crawl probeer je de hele website binnen te halen en al het materiaal dat op de website aanwezig is. Een combinatie van beide methoden is gebruikelijk.
Bekende tools voor het ‘oogsten’ van het web zijn Web Curator Tool, Heritrix en Brozzler en metadataharvesting via het OAI-PMH protocol. Web Curator Tool is mede ontwikkeld door de Koninklijke Bibliotheek die er al ruim 20.000 websites mee gearchiveerd heeft.
Er zijn ook commerciële diensten die het web voor je crawlen zoals archive-it.org en archiefweb.eu. Het zijn vaak de kleinere organisaties die een bescheiden aantal websites archiveren die voor dit soort diensten kiezen.
DIY: Een aantal tools voor tijdreizigers
Als je op een website stuit, welke mogelijkheden heb je dan om te bekijken of er al ergens een oudere versie gearchiveerd is? En hoe draag je zelf bij aan het maken van deelbare snapshots? Vier tools die je gemakkelijk zelf uit kunt proberen:1. Timetravel helpt bij het vinden van versies van webpagina’s die bestonden op een bepaald moment in het verleden. Als je het webadres van een pagina plus een tijd in het verleden invoert, probeert Timetravel zogeheten memento’s (momentopnamen) te vinden in een groot scala aan webarchieven. Er zijn twee opties: Find en Reconstruct. Daar waar Find één bepaalde snapshot van een website rond de door jou ingevoerde datum op probeert te halen, probeert Reconstruct verschillende snapshots uit verschillende webarchieven rondom dezelfde datum aan elkaar te plakken. Probeer het maar eens uit voor de website van jouw instelling.
2. Installeer de Memento time travel plugin in de webbrowser Chrome. Dan maak je het checken van oudere versies van websites deel van je workflow.
3. Maak gebruik van de ‘save page now’-optie van het Internet Archive. ‘Capture a web page as it appears now for use as a trusted citation in the future’, zegt het Internet Archive daarover.
4. Gebruik Conifer webrecorder om een interactieve opname te maken van hoe een website er nu uit ziet. Het nadeel van deze tool is dat het een arbeidsintensief klusje is om door een hele webpagina heen te klikken terwijl de tool het resultaat opneemt; het voordeel is dat de tool laagdrempelig is in het gebruik en dat je er bijvoorbeeld ook dynamische webcontent mee kunt archiveren.
- Fase 3: Preservering
Gedownloade files worden gecheckt op kwaliteit en indien nodig geconverteerd naar een stabiel bestandstype. Crawlers maken vaak automatisch een zogeheten WARC ((Web ARChive) file. Het is een internationale standaard voor webarchivering welke de relatie tussen gecrawlde webpagina’s en gerelateerde content behoudt.
- Fase 4: Toegang
Toegang geven is het on-site of online beschikbaarstellen van het webarchief. Dit is uitsluitend mogelijk met toestemming van rechthebbenden. Het internet archive is een prachtig voorbeeld van hoe toegang eruit kan zien.
Zelf beginnen met webarchivering?
- Vul de Checklist aan de slag met webarchivering van het Netwerk Digitaal Erfgoed in. De checklist kan worden gebruikt door organisaties die van plan zijn websites (of sociale media) te gaan archiveren. Aan de hand van een aantal vragen in vier categorieën word je door een voorbereidingsproces geleid.
- Ga je overheidssites archiveren? Bekijk dan de handreiking webarchivering van het Nationaal Archief.
- Bekijk als voorbeeld het Plan van aanpak webarchivering van het Regionaal Archief Nijmegen
- Stel je vraag op het Kennisplatform webarchivering.
Casus webarchivering: de website van De Oversteek gearchiveerd
De eerste website die het Regionaal Archief Nijmegen (RAN) heeft gearchiveerd is de site over de bouw van stadsbrug De Oversteek in de periode 2008-2014, samengesteld door fotograaf Thea van den Heuvel in opdracht van de gemeente Nijmegen. Deze gearchiveerde website is niet online beschikbaar. Websites bestaan uit verschillende onderdelen, die samen het geheel vormen. Deze onderdelen kunnen ieder op zichzelf beschermd zijn door het auteursrecht en andere intellectuele eigendomsrechten. Soms leidt dat ertoe dat websites alleen in de studiezaal te bekijken zijn.
RAN wil haar websites zo compleet mogelijk archiveren, inclusief vormgeving, beeld- en geluidsmateriaal en links. Daardoor blijven de websites functioneel en ogen en werken ze als ‘live’-websites. Door het archiveren periodiek te herhalen ontstaan er meerdere momentopnamen van dezelfde website. In eerste instantie richt RAN zich op websites die van het internet dreigen te verdwijnen, of die een grote toegevoegde waarde hebben op de eigen collecties en archieven.
De websites worden gearchiveerd via archiefweb.eu. Archiefweb.eu archiveert websites en sociale media van organisaties die moeten voldoen aan de Archiefwet 1995.
Het jargon
Content drift
Er is sprake van ‘content drift’ als de inhoud van een bron in de tijd zodanig verandert dat deze niet langer representatief is voor de originele inhoud.
Harvesting
Harvesting is een proces waarbij een script wordt gebruikt om een grote hoeveelheid gegevens automatisch te extraheren uit websites. Bekende voorbeelden zijn webharvesting met tools zoals Web Curator en metadataharvesting via het OAI-PMH protocol Er zijn grofweg twee manieren om het web te ‘oogsten’: Bij een zogeheten domain crawl haal je zoveel mogelijk websites binnen maar dat doe je maar oppervlakkig. Bij een zogeheten selective crawl probeer je de hele website binnen te halen en al het materiaal dat op de website aanwezig is. Een combinatie van beide methoden is gebruikelijk.
Linkrot
Er is sprake van linkrot als een bron op het WWW waarnaar verwezen wordt, niet langer beschikbaar is.
WARC-files
WARC staat voor Web ARChive. Het is een internationale standaard voor webarchivering welke de relatie tussen gecrawlde webpagina’s en gerelateerde content behoudt. Het WARC-bestandsformaat is een internationale norm: ISO 28500:2017. Standaardisatie is een voorwaarde voor digitale duurzaamheid.
Webarchivering
Webarchivering is het proces van het verzamelen van onderdelen van het Wereld Wijde Web, het preserveren van deze collecties in een archiveerbaar formaat en het aanbieden van deze archieven voor toegang en hergebruik.
Meer weten?
- Lees het artikel ‘Een web van webarchieven: pleidooi voor meer samenwerking in Nederland‘ van Marcel Ras en Arnoud Goos.
- In opdracht van de minister van OCW heeft het Nationaal Archief de Richtlijn archiveren overheidswebsites opgesteld.
- Door content drift en linkrot staat de wetenschappelijke integriteit op het spel. Herbert van de Sompel en Martin Klein schrijven erover op LSE Impact blog (Engelstalig).
- In het webinar webarchivering (juni 2020) krijg je een crashcourse in het waarom en praktische tips voor het hoe van webarchivering.
- Webarchivering bij de Koninklijke Bibliotheek.
- Bekijk het rapport van de Erfgoedinspectie waarin erop wordt gewezen dat websites van de overheid nauwelijks worden gearchiveerd.
- Neem een kijkje bij deze blog met tips voor kwaliteitscontrole.
Misschien aardig om de richtlijn webarchivering van het Nationaal Archief toe te voegen dat december 2018 is vastgesteld, en het Rijkskader webarchivering dat door CIO Rijk is vastgesteld (contactpersoon Jeanine van Dijk, RDDI)