Duurzame bestandsformaten
TIP
Moedig het gebruik van duurzame bestandsformaten en software aan.
Een van de belangrijkste zorgen bij digitale archivering is een mogelijk verlies van de leesbaarheid van informatie op de lange termijn. Niet alle bestandsformaten zijn even geschikt om de tand des tijds te doorstaan. Het doel van deze paragraaf is niet om je een gedetailleerde of uitputtende lijst van duurzame bestandsformaten voor verschillende soorten inhoud te verstrekken, maar om bewustwording te kweken voor de realiteit: het maakt uit in welk formaat je een bestand opslaat!
Wegwijzer Voorkeursformaten
Onderdeel van duurzaamheidsbeleid is beleid op bestandsformaten. Zonder dat een instelling het doorheeft, groeit het aantal bestandsformaten dat een instelling in gebruik heeft. Maar wat weet de instelling over deze bestandsformaten? Welke bestandsformaten komen in aanmerking om de informatie in het bestand langdurig te kunnen bewaren? Op welke bestandsformaten past een instelling actief preservering toe? En welke garanties kan een instelling bieden op langdurige afspeelbaarheid of bruikbaarheid van een bestandsformaat? Kortom, welke keuze maak je als instelling om het ene formaat wel te accepteren voor je digitaal archief en het andere formaat niet? | Whitepaper Wegwijzer Preferred Formats. Het resultaat van het project voorkeursformaten is de Wegwijzer Voorkeursformaten.
Bij voorkeur sla je digitale objecten op in een gestandaardiseerd bestandsformaat. Een gestandaardiseerd formaat is in de regel:
- open en gedocumenteerd
er is documentatie beschikbaar (over de technische specificaties) en die mag vrij van licentierechten worden gebruikt.
- stabiel
de standaard kan niet zomaar worden aangepast; daar is een procedure voor. - onafhankelijk
de standaard wordt ondersteund door meerdere softwareleveranciers en open-source-initiatieven.
Er bestaan twee typen standaarden:
- officiële standaarden
Standaarden die door officiële standaardiseringsorganisaties zijn vastgelegd en die te vinden zijn op de site van Forum Standaardisatie. - de facto standaarden
Een bestandsformaat kan uitgroeien tot een standaard wanneer het een groot marktaandeel verwerft en niet meer weg te denken is. In dat geval verwerft het de titel ‘de facto standaard’. Dat grote marktaandeel kan zowel verworven zijn door een commercieel bedrijf (zoals Microsoft) als door niet-officiële standaardiseringsorganisaties (zoals het World Wide Web Consortium (W3C)). Een commercieel bedrijf kan er dan weer voor kiezen de documentatie te publiceren of voor zichzelf te houden.
Deze variatie leidt tot onderstaande combinaties in bestandsformaten.
formaat | PROPRIETARY (Commercieel, leveranciersafhankelijk) | NON-PROPRIETARY |
---|---|---|
Open bestandsformaat | Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties gepubliceerd (mogen vrij van licentierechten worden gebruikt) | Voorbeeld: PDF (een product van Adobe met open specificaties) | Community-owned of beheerd door een officiële standaardiseringsinstantie, specificaties gepubliceerd | Voorbeeld: XML en SVG ontwikkeld door W3C |
Gesloten bestandsformaat | Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties niet gepubliceerd | Voorbeeld: Microsoft Word, Microsoft Excel, etc. |
Het stimuleren van het gebruik van duurzame bestandsformaten gaat niet simpelweg om een keuze tussen officiële en de facto standaarden. Voor veel gebieden en toepassingen, zoals Geografische Informatie Systemen (GIS) of Virtual Reality zijn namelijk alleen de facto standaarden beschikbaar.
Voorkeursformaten
At all times, the answer to digital preservation issues is not to try and “do everything”. Your strategy ought to move you towards simple and practical actions, rather than trying to support more file formats than you need | Digital Preservation Handbook
Omdat preserveren – digitale informatie meenemen door de tijd heen – makkelijker gaat met sommige formaten dan met andere, stellen veel collectiebeherende instellingen een lijst van voorkeursformaten op waarin zij bestanden graag aangeleverd krijgen (aanleverspecificaties). Volgens de handreiking voorkeursformaten van het Nationaal Archief blijkt in de praktijk namelijk dat vaak niet het voor duurzame toegang gewenste bestandsformaat, maar het standaard-opslagformaat van een applicatie wordt gebruikt (bijvoorbeeld: .doc in Microsoft Office, terwijl tekst ook als .odt kan worden opgeslagen).
Door in de aanleverspecificaties duidelijkheid te geven over de voorkeursformaten kun je informatieverlies voorkomen. Want ook bij het omzetten van een aangeleverd formaat naar een bestandsformaat dat geschikter is voor duurzame toegang kan informatieverlies optreden. Verlies dat voorkomen kan worden mits je jezelf bewust bent van dit risico en er actief op stuurt.
Normalisatie
Normalisatie is de omzetting naar een bestandsformaat dat duurzamer wordt geacht binnen het duurzaamheidsbeleid en de preserveringsstrategie van een organisatie. Wanneer de strategie voor functionele preservering bepaalt dat gesloten bestandsformaten zoveel mogelijk omgezet worden naar open formaten, zullen de geldende regels voor normalisatie ervoor zorgen dat deze stap binnen de opname en preservation planning wordt opgepakt.
Normalisatie kan naast het creëren van archiefexemplaren (preserveringsexemplaren) ook gaan om het creëren van raadpleegexemplaren, die geschikt zijn voor de gedefinieerde doelgroep van het archief.
Risicospreiding
Een goede strategie om informatieverlies op de lange termijn te voorkomen, is risicospreiding: zo kun je .raw-fotobestanden bijvoorbeeld ook als .tiff en/of .jpeg bewaren. Vanuit beheersoogpunt is het wel zinvol om als archief het aantal bestandsformaten dat je opneemt en onderhoudt te beperken. Zo houd je het beheersproces zo eenvoudig mogelijk.
Compressie
Als het even kan, archiveer dan geen gecomprimeerde digitale documenten. Zowel bij compressie als decompressie kan er informatieverlies optreden (‘lossy compression’) en dat gaat ten koste van de kwaliteit. Zeker bij audiovisuele objecten is kwaliteitsverlies makkelijk waarneembaar. Compressie is uitgevonden om de gegevensgrootte voor verwerking en opslag te verkleinen.
Als compressie toch onvermijdelijk is, kies dan voor een compressiemethode-zonder-verlies (‘lossless compression’) en kies een compressie met een open, gedocumenteerd en gestandaardiseerd decompressie-algoritme zoals JPEG2000.
Het jargon
Normalisatie
Normaliseren is de omzetting naar een bestandsformaat dat duurzamer wordt geacht binnen het duurzaamheidsbeleid en de preserveringsstrategie van een organisatie.
Open standaard
Een open standaard (open-source) is publiekelijk beschikbaar. De specificaties van de standaard mogen vrij van licentierechten worden toegepast, gebruikt en veranderd. Open standaarden ondersteunen gegevensuitwisseling tussen ICT-systemen en voorkomen afhankelijkheid van een softwareleverancier | Forum standaardisatie.
PDF/A (Portable Document Format Archivable)
PDF/A, ook bekend als ISO 19005-1, is een speciale variant van het gewone PDF-formaat die specifiek ontwikkeld is voor archivering. Het kent twee varianten: PDF A1 en PDF A2.
PDF A1
PDF A1 is een open standaardformaat voor de uitwisseling van documenten waarvan de paginaopmaak vastligt. Het uitgangspunt van PDF A1 is dat gebruikers documenten kunnen uitwisselen, bekijken en afdrukken, onafhankelijk van de omgeving waarin ze worden gecreëerd, bekeken of afgedrukt. PDF A1 is bovendien een duurzaam toegankelijk formaat, dat ook in de toekomst kan worden geopend met de software die dan gangbaar is.
PDF A2
Het verschil met PDF A1 is dat PDF A2 meer functionaliteit bezit die zorgt voor een betere ondersteuning van elementen en kenmerken zoals lagen, metadata, lettertypen, documentafmetingen en afbeeldingen. Daardoor is PDF A2 ook geschikter voor duurzame migratie van digitaal geboren bestanden. PDF A2 voldoet aan dezelfde eisen voor een open bestandsformaat als PDF A1.
SVG
SVG is een op XML gebaseerd bestandsformaat voor statische en dynamische vectorafbeeldingen.
Verliesgevende compressie (in het Engels ‘lossy compression’)
Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er in de regel informatieverlies optreedt.
Compressie-zonder-verlies (in het Engels ‘lossless compression’)
Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er geen informatieverlies optreedt.
XML
Met XML kunnen gestructureerde gegevens worden gerepresenteerd in de vorm van tekst, die zowel door mensen als machines leesbaar is.
Voorkeursformaat
Het bestandsformaat waarin een digitaal archief – dat zich richt op duurzame toegang – digitale objecten bij voorkeur opneemt.
Meer weten?
- Voor voorbeelden van voorkeursformaten kun je een kijkje nemen bij die van het data-archief DANS of die van het Nationaal Archief.
- Lees het lijvige document ‘Standaarden voor digitale archiefdocumenten’ (pdf) van Filip Boudrez (2001).
- Lees de Whitepaper Wegwijzer Preferred Formats (2020).
- Bekijk de Wegwijzer Voorkeursformaten
- Bekijk de lijst met met open standaarden van het Forum Standaardisatie.
- Bekijk de volgende twee paragrafen van het Digital Preservation Handbook van de DPC:
- The National Archives host een database met informatie over alle – bij hen – bekende bestandsformaten en de ondersteunende softwareproducten: PRONOM. Het bevat informatie over softwareproducten en de bestandsformaten die door deze producten gelezen kunnen worden. Je kunt zoeken op bestandsformaat, software, softwareleverancier en levenscycli (je kunt zoeken welke softwareproducten op een bepaald moment in de tijd ondersteund werden).
Voor Nederland is de handreiking die het Nationaal Archief heeft opgesteld erg nuttig: https://www.nationaalarchief.nl/archiveren/kennisbank/handreiking-voorkeursformaten-nationaal-archief
Het verschil tussen PDF/A1 en A2 is mij niet duidelijk uit de beschrijving. En waar bepaal je of je iets als A1 of A2 opslaat als je een PDF genereerd?