paragraaf

Bitpreservering

paragraaf Progress:
TIP

Zorg dat de integriteit van digitale objecten in tact blijft.

De meest eenvoudige vorm van duurzaam bewaren heet bitpreservering: zorgen dat de volgorde van nullen en enen in tact blijft. Bitpreservering omvat:

  • het onderhouden van on-site and off-site back-ups;
  • het regelmatig uitvoeren van een viruscheck;
  • het kopiëren van bestanden naar nieuwe opslagmedia;
  • het regelmatig checken van de integriteit van de digitale objecten.

Bij bitpreservering  is er (nog) geen aandacht besteed aan de kwaliteit van de representatie-informatie.

De checksum

Een manier om te checken of een bestand onveranderd is ten opzichte van zijn originele staat, is het achterhalen van de zogeheten digitale handtekening van het digitale object. Je checkt dan de volgorde van nullen en enen op de digitale drager: dat heet ook wel een fixity check. Fixity (vastheid) gaat over de garantie dat een digitaal object onveranderd is en dat de integriteit in tact is. Zo’n check voer je uit met een zogeheten checksum checker en na het checken volgt er een controlegetal (de checksum).

Idealiter wordt een informatiepakketje bij een archief aangeleverd mét een checksumwaarde. Als je op gezette tijdstippen in de levenscyclus van een digitaal object een checksum bepaalt, dan kun je die waarde vergelijken met de oorspronkelijke waarde. Mocht de volgorde van nullen en enen dan onbedoeld veranderd zijn, dan kun je het bestand vervangen door een back-up. Soms wordt digitaal materiaal natuurlijk opzettelijk gewijzigd, bijvoorbeeld wanneer een bestandsformaat gemigreerd wordt. Hierdoor verandert de checksum en de reden daarvoor moet goed gedocumenteerd worden.

Onderstaand filmpje (in het Engels) van Dough Boyd, directeur van het Louie B. Nunn Center for Oral History at the University of Kentucky Libraries, legt de rol van een checksum in klare taal uit.

De checksum algoritmes

Er zijn verschillende checksum algoritmes zoals  MD5 en SHA (Secure Hash Algorithm). Een verschil is dat SHA een langere checksumcode genereert dan MD5. Hoe ‘sterker’ het algoritme, des te moeilijker het is om een bestand met opzet te veranderen op een manier die niet wordt ontdekt. Als je aanwijzingen hebt dat je bestanden moedwillig beschadigd zouden kunnen worden (bijvoorbeeld omdat je bestand in rechtszaken gebruikt wordt) dan gebruik je het beste een sterk algoritme. Als checksums worden gebruikt om verlies of beschadiging van bestanden op te sporen als gevolg van een fout tijdens het opslaan dan is MD5 voldoende.

In de keuzeopdrachten kun je ook zelf oefenen met het genereren van een checksum.

Ongewild informatieverlies voorkomen

Het kan ook gebeuren dat je zelf ongewild de integriteit van een bestand verandert. Een van de geboden om dat te voorkomen luidt als volgt:

Gij zult een bestand niet openen voordat u een kopie heeft gemaakt”

Bij het openen van bestanden ontstaat feitelijk een nieuwe kopie van het bestand en kunnen er veranderingen in documentinstellingen en -inhoud optreden. Daarom mag je alleen kopieën van bestanden openen, omdat je anders ongewild de authenticiteit en integriteit aan kunt tasten. Dat betekent bijvoorbeeld ook dat je de foto’s die op een geheugenkaartje staan niet mag draaien van landscape naar portrait of andersom voordat je de bestanden hebt gekopieerd. Bij het roteren van een bestand kan de volgorde van nullen en enen namelijk ook veranderen, waardoor het bestand onleesbaar kan worden.

Het jargon

Bitpreservering 


Bitpreservering (in het Engels ‘bit level preservation’) is een term die een basisniveau van behoud van digitaal materiaal aanduidt: het behoud van de oorspronkelijke volgorde van nullen en enen.

Checksum 


Een checksum is een unieke numerieke handtekening die is afgeleid van een digitaal bestand.

Meer weten?

Comments

  1. Rick Beldman

    Wellicht is het een idee om hier ook meteen de veelzijdigheid van checksums qua gebruik te benadrukken? Alhoewel checksums voornamelijk voor de fixity check gebruikt worden kunnen er ook dubbele bestanden mee opgespoord worden (die hebben immers eenzelfde checksum) alsmede zero-byte bestanden (de 0 wordt als input gebruikt door het algoritme en daardoor heeft de checksum voor ieder zero-byte altijd een vaststaande waarde).