paragraaf

Duurzame bestandsformaten

paragraaf Progress:
TIP

Moedig het gebruik van duurzame bestandsformaten en software aan.

Een van de belangrijkste zorgen bij digitale archivering is een mogelijk verlies van de leesbaarheid van informatie op de lange termijn. Niet alle bestandsformaten zijn even geschikt om de tand des tijds te doorstaan. Het doel van deze paragraaf is niet om je een gedetailleerde of uitputtende lijst van duurzame bestandsformaten voor verschillende soorten inhoud te verstrekken, maar om bewustwording te kweken voor de realiteit: het maakt uit in welk formaat je een bestand opslaat!

Wegwijzer Voorkeursformaten

Onderdeel van duurzaamheidsbeleid is beleid op bestandsformaten. Zonder dat een instelling het doorheeft, groeit het aantal bestandsformaten dat een instelling in gebruik heeft. Maar wat weet de instelling over deze bestandsformaten? Welke bestandsformaten komen in aanmerking om de informatie in het bestand langdurig te kunnen bewaren? Op welke bestandsformaten past een instelling actief preservering toe? En welke garanties kan een instelling bieden op langdurige afspeelbaarheid of bruikbaarheid van een bestandsformaat? Kortom, welke keuze maak je als instelling om het ene formaat wel te accepteren voor je digitaal archief en het andere formaat niet? | Whitepaper Wegwijzer Preferred Formats. Het resultaat van het project voorkeursformaten is de Wegwijzer Voorkeursformaten.

Bij voorkeur sla je digitale objecten op in een gestandaardiseerd bestandsformaat. Een gestandaardiseerd formaat is in de regel:

  • open en gedocumenteerd
    er is documentatie beschikbaar (over de technische specificaties) en die mag vrij van licentierechten worden gebruikt.  
  • stabiel
    de standaard kan niet zomaar worden aangepast; daar is een procedure voor.
  • onafhankelijk
    de standaard wordt ondersteund door meerdere softwareleveranciers en open-source-initiatieven.

Er bestaan twee typen standaarden:

  • officiële standaarden
    Standaarden die door officiële standaardiseringsorganisaties zijn vastgelegd en die te vinden zijn op de site van Forum Standaardisatie.
  • de facto standaarden  
    Een bestandsformaat kan uitgroeien tot een standaard wanneer het een groot marktaandeel verwerft en niet meer weg te denken is. In dat geval verwerft het de titel ‘de facto standaard’. Dat grote marktaandeel kan zowel verworven zijn door een commercieel bedrijf (zoals Microsoft) als door niet-officiële standaardiseringsorganisaties (zoals het World Wide Web Consortium (W3C)). Een commercieel bedrijf kan er dan weer voor kiezen de documentatie te publiceren of voor zichzelf te houden.

Deze variatie leidt tot onderstaande combinaties in bestandsformaten.

formaat  PROPRIETARY (Commercieel, leveranciersafhankelijk)  NON-PROPRIETARY
Open bestandsformaat Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties gepubliceerd (mogen vrij van licentierechten worden gebruikt) | Voorbeeld: PDF (een product van Adobe met open specificaties) Community-owned of beheerd door een officiële standaardiseringsinstantie, specificaties gepubliceerd | Voorbeeld: XML en SVG ontwikkeld door W3C
Gesloten bestandsformaat Eigendom van een commercieel bedrijf, ondersteund door één leverancier, specificaties niet gepubliceerd | Voorbeeld: Microsoft Word, Microsoft Excel, etc.

Het stimuleren van het gebruik van duurzame bestandsformaten gaat niet simpelweg om een keuze tussen officiële en de facto standaarden. Voor veel gebieden en toepassingen, zoals Geografische Informatie Systemen (GIS) of Virtual Reality zijn namelijk alleen de facto standaarden beschikbaar.

Voorkeursformaten

At all times, the answer to digital preservation issues is not to try and “do everything”. Your strategy ought to move you towards simple and practical actions, rather than trying to support more file formats than you need | Digital Preservation Handbook

Omdat preserveren – digitale informatie meenemen door de tijd heen – makkelijker gaat met sommige formaten dan met andere, stellen veel collectiebeherende instellingen een lijst van voorkeursformaten op waarin zij bestanden graag aangeleverd krijgen (aanleverspecificaties). Volgens de handreiking voorkeursformaten van het Nationaal Archief blijkt in de praktijk namelijk dat vaak niet het voor duurzame toegang gewenste bestandsformaat, maar het standaard-opslagformaat van een applicatie wordt gebruikt (bijvoorbeeld: .doc in Microsoft Office, terwijl tekst ook als .odt kan worden opgeslagen).
Door in de aanleverspecificaties duidelijkheid te geven over de voorkeursformaten kun je informatieverlies voorkomen. Want ook bij het omzetten van een aangeleverd formaat naar een bestandsformaat dat geschikter is voor duurzame toegang kan informatieverlies optreden. Verlies dat voorkomen kan worden mits je jezelf bewust bent van dit risico en er actief op stuurt.

Normalisatie

Normalisatie is de omzetting naar een bestandsformaat dat duurzamer wordt geacht binnen het duurzaamheidsbeleid en de preserveringsstrategie van een organisatie. Wanneer de strategie voor functionele preservering bepaalt dat gesloten bestandsformaten zoveel mogelijk omgezet worden naar open formaten, zullen de geldende regels voor normalisatie ervoor zorgen dat deze stap binnen de opname en preservation planning wordt opgepakt.
Normalisatie kan naast het creëren van archiefexemplaren (preserveringsexemplaren) ook gaan om het creëren van raadpleegexemplaren, die geschikt zijn voor de gedefinieerde doelgroep van het archief.

Risicospreiding

Een goede strategie om informatieverlies op de lange termijn te voorkomen, is risicospreiding: zo kun je .raw-fotobestanden bijvoorbeeld ook als .tiff en/of .jpeg bewaren. Vanuit beheersoogpunt is het wel zinvol om als archief het aantal bestandsformaten dat je opneemt en onderhoudt te beperken. Zo houd je het beheersproces zo eenvoudig mogelijk.

Compressie

Als het even kan, archiveer dan geen gecomprimeerde digitale documenten. Zowel bij compressie als decompressie kan er informatieverlies optreden (‘lossy compression’) en dat gaat ten koste van de kwaliteit. Zeker bij audiovisuele objecten is kwaliteitsverlies makkelijk waarneembaar.  Compressie is uitgevonden om de gegevensgrootte voor verwerking en opslag te verkleinen.
Als compressie toch onvermijdelijk is, kies dan voor een compressiemethode-zonder-verlies (‘lossless compression’) en kies een compressie met een open, gedocumenteerd en gestandaardiseerd decompressie-algoritme zoals JPEG2000.

Het jargon

Normalisatie


Normaliseren is de omzetting naar een bestandsformaat dat duurzamer wordt geacht binnen het duurzaamheidsbeleid en de preserveringsstrategie van een organisatie.

Open standaard


Een open standaard (open-source) is publiekelijk beschikbaar. De specificaties van de standaard mogen vrij van licentierechten worden toegepast, gebruikt en veranderd. Open standaarden ondersteunen gegevensuitwisseling tussen ICT-systemen en voorkomen afhankelijkheid van een softwareleverancier | Forum standaardisatie.

PDF/A (Portable Document Format Archivable)


PDF/A, ook bekend als ISO 19005-1, is een speciale variant van het gewone PDF-formaat die specifiek ontwikkeld is voor archivering. Het kent twee varianten: PDF A1 en PDF A2.

PDF A1


PDF A1 is een open standaardformaat voor de uitwisseling van documenten waarvan de paginaopmaak vastligt. Het uitgangspunt van PDF A1 is dat gebruikers documenten kunnen uitwisselen, bekijken en afdrukken, onafhankelijk van de omgeving waarin ze worden gecreëerd, bekeken of afgedrukt. PDF A1 is bovendien een duurzaam toegankelijk formaat, dat ook in de toekomst kan worden geopend met de software die dan gangbaar is.

PDF A2


Het verschil met PDF A1 is dat PDF A2 meer functionaliteit bezit die zorgt voor een betere ondersteuning van elementen en kenmerken zoals lagen, metadata, lettertypen, documentafmetingen en afbeeldingen. Daardoor is PDF A2 ook geschikter voor duurzame migratie van digitaal geboren bestanden. PDF A2 voldoet aan dezelfde eisen voor een open bestandsformaat als PDF A1.

SVG


SVG is een op XML gebaseerd bestandsformaat voor statische en dynamische vectorafbeeldingen.

Verliesgevende compressie (in het Engels ‘lossy compression’)


Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er in de regel informatieverlies optreedt.

Compressie-zonder-verlies (in het Engels ‘lossless compression’) 


Een mechanisme voor het verkleinen van de bestandsgrootte waarbij er geen informatieverlies optreedt.

XML


Met XML kunnen gestructureerde gegevens worden gerepresenteerd in de vorm van tekst, die zowel door mensen als machines leesbaar is.

Voorkeursformaat


Het bestandsformaat waarin een digitaal archief – dat zich richt op duurzame toegang – digitale objecten bij voorkeur opneemt.

Meer weten?

Comments

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.