paragraaf

Duurzame bestandsformaten

paragraaf Progress:
TIP

Moedig het gebruik van duurzame bestandsformaten en software aan.

Een van de belangrijkste zorgen bij digitale archivering is een mogelijk verlies van de leesbaarheid van informatie op de lange termijn. Niet alle bestandsformaten zijn even geschikt om de tand des tijds te doorstaan. Het doel van deze paragraaf is niet om je een gedetailleerde of uitputtende lijst van duurzame bestandsformaten voor verschillende soorten inhoud te verstrekken, maar om bewustwording te kweken voor de realiteit: het maak uit in welk formaat je een bestand opslaat!

Bij voorkeur sla je digitale objecten op in een gestandaardiseerd bestandsformaat. Een gestandaardiseerd formaat is in de regel:

  • open en gedocumenteerd
    er is documentatie beschikbaar (over de technische specificaties) en die mag vrij van licentierechten worden gebruikt.  
  • stabiel
    de standaard kan niet zomaar worden aangepast; daar is een procedure voor.
  • onafhankelijk
    de standaard wordt ondersteund door meerdere softwareleveranciers en open-source-initiatieven.

Er bestaan twee typen standaarden:

  • officiële standaarden
    standaarden die door officiële standaardiseringsorganisaties zijn vastgelegd.
  • de facto standaarden  
    Een bestandsformaat kan uitgroeien tot een standaard wanneer het een groot marktaandeel verwerft en niet meer weg te denken is. In dat geval verwerft het de titel ‘de facto standaard’. Dat grote marktaandeel kan zowel verworven zijn door een commercieel bedrijf (zoals Microsoft) als door niet-officiële standaardiseringsorganisaties (zoals het World Wide Web Consortium (W3C)). Een commercieel bedrijf kan er dan weer voor kiezen de documentatie te publiceren of voor zichzelf te houden.

Deze variatie leidt tot onderstaande combinaties in bestandsformaten. Op de site van Forum Standaardisatie vind je een lijst met open standaarden en hun beheersorganisaties.

formaat  PROPRIETARY (Commercieel, leveranciersafhankelijk)  NON-PROPRIETARY
Open bestandsformaat Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties gepubliceerd (mogen vrij van licentierechten worden gebruikt) | Voorbeeld: PDF (een product van Adobe met open specificaties) Community-owned of beheerd door een officiële standaardiseringsinstantie, specificaties gepubliceerd | Voorbeeld: XML en SVG ontwikkeld door W3C
Gesloten bestandsformaat Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties niet gepubliceerd | Voorbeeld: Microsoft Word, Microsoft Excel, etc.

Het stimuleren van het gebruik van duurzame bestandsformaten gaat niet simpelweg om een keuze tussen officiële en de facto standaarden. Voor veel gebieden en toepassingen, zoals Geografische Informatie Systemen (GIS) of Virtual Reality zijn namelijk alleen de facto standaarden beschikbaar.

Voorkeursformaten

At all times, the answer to digital preservation issues is not to try and “do everything”. Your strategy ought to move you towards simple and practical actions, rather than trying to support more file formats than you need | Digital Preservation Handbook

Omdat preserveren – digitale informatie meenemen door de tijd heen – makkelijker gaat met sommige formaten dan met andere, stellen veel collectiebeherende instellingen een lijst van voorkeursformaten op waarin zij bestanden graag aangeleverd krijgen (aanleverspecificaties). Volgens het document met voorkeursformaten van het Nationaal Archief (pdf) blijkt in de praktijk namelijk dat vaak niet het voor duurzame toegang gewenste bestandsformaat, maar het standaard-opslagformaat van een applicatie wordt gebruikt (bijvoorbeeld: .doc in Microsoft Office, terwijl tekst ook als .odt kan worden opgeslagen).
Door in de aanleverspecificaties duidelijkheid te geven over de voorkeursformaten kun je informatieverlies voorkomen. Want ook bij het omzetten van een aangeleverd formaat naar een bestandsformaat dat geschikter is voor duurzame toegang kan informatieverlies optreden. Verlies dat voorkomen kan worden mits je jezelf bewust bent van dit risico en er actief op stuurt.

Risicospreiding

Een goede strategie om informatieverlies op de lange termijn te voorkomen, is risicospreiding: zo kun je .raw fotobestanden bijvoorbeeld ook als .tiff en/of .jpeg bewaren. Vanuit beheersoogpunt is het wel zinvol om als archief het aantal bestandsformaten dat je opneemt en onderhoudt te beperken. Zo houd je het beheersproces zo eenvoudig mogelijk.

Compressie

Als het even kan, archiveer dan geen gecomprimeerde digitale documenten. Zowel bij compressie als decompressie kan er informatieverlies optreden (‘lossy compression’) en dat gaat ten koste van de kwaliteit. Zeker bij audiovisuele objecten is kwaliteitsverlies makkelijk waarneembaar.  Compressie is uitgevonden om de gegevensgrootte voor verwerking en opslag te verkleinen.
Als compressie toch onvermijdelijk is, kies dan voor een compressiemethode-zonder-verlies (‘lossless compression’) en kies een compressie met een open, gedocumenteerd en gestandaardiseerd decompressie-algoritme zoals JPEG2000.

Het jargon

Open standaard


Een open standaard (open-source) is publiekelijk beschikbaar. De specificaties van de standaard mogen vrij van licentierechten worden toegepast, gebruikt en veranderd. Open standaarden ondersteunen gegevensuitwisseling tussen ICT-systemen en voorkomen afhankelijkheid van een softwareleverancier | Forum standaardisatie.

PDF/A (Portable Document Format Archivable)

PDF/A, ook bekend als ISO 19005-1, is een speciale variant van het gewone PDF-formaat die specifiek ontwikkeld is voor archivering. Het kent twee varianten: PDF A1 en PDF A2.

PDF A1


PDF A1 is een open standaardformaat voor de uitwisseling van documenten waarvan de paginaopmaak vastligt. Het uitgangspunt van PDF A1 is dat gebruikers documenten kunnen uitwisselen, bekijken en afdrukken, onafhankelijk van de omgeving waarin ze worden gecreëerd, bekeken of afgedrukt. PDF A1 is bovendien een duurzaam toegankelijk formaat, dat ook in de toekomst kan worden geopend met de software die dan gangbaar is.

PDF A2


PDF A2 is een open standaardformaat voor de uitwisseling van documenten waarvan de pagina opmaak vastligt. Het uitgangspunt van PDF A2 is dat gebruikers documenten kunnen uitwisselen, bekijken en afdrukken, onafhankelijk van de omgeving waarin ze worden aangemaakt, bekeken of afgedrukt. PDF A2 kan worden gebruikt als PDF A1 onvoldoende functionaliteit biedt, bijvoorbeeld als het document een scan bevat of bestaat uit verschillende transparante lagen.

SVG


SVG is een op XML gebaseerd bestandsformaat voor statische en dynamische vectorafbeeldingen.

Verliesgevende compressie (in het Engels ‘lossy compression’)


Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er in de regel informatieverlies optreedt.

Compressie-zonder-verlies (in het Engels ‘lossless compression’) 


Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er geen informatieverlies optreedt.

XML


Met XML kunnen gestructureerde gegevens worden gerepresenteerd in de vorm van tekst, die zowel door mensen als machines leesbaar is.

Voorkeursformaat


Het bestandsformaat waarin een digitaal archief – dat zich richt op duurzame toegang – digitale objecten bij voorkeur opneemt.

Meer weten?