De drie-eenheid
Tijdens deze cursus staat het informatieobject in de schijnwerpers. Maar wat bedoelen we er eigenlijk mee? Als we het informatieobject als som zouden definiëren dan ziet dat er als volgt uit:
digitaal object + representatie-informatie = informatieobject
De combinatie van digitaal object, representatie-informatie en informatieobject wordt ook wel ‘de drie-eenheid’ genoemd. Ze zijn onlosmakelijk met elkaar verbonden. Vergelijk het met geheimschrift. Als je niet weet volgens welke regels en met welke tools je dat geheimschrift moet ontcijferen dan blijft het geheim bewaard. En in de tussentijd tikt de klok door omdat het geheimschrift zelf ook aan verval onderhevig is (bitrot).
De som begint met een digitaal object: gecodeerde informatie als een reeks nullen en enen op een opslagmedium. De manier waarop de nullen en enen georganiseerd zijn, hangt af van de specificaties van het gebruikte bestandsformaat. Verschillende typen digitale objecten (beeld, audio, tekst, video, technische tekeningen, 3D-modelllen, source code, etc.) hebben verschillende bestandsformaten. Het informatieobject ontstaat alleen bij een juiste interpretatie (representatie) van het digitale object. De representatie-informatie is dan ook essentieel voor duurzame toegankelijkheid. Als je weet volgens welke formaatspecificaties de nullen en enen geordend zijn, met welke software je dit bestand moet openen, op welk besturingssysteem deze software draait en welke hardware daar dan voor nodig is, kun je de nullen en enen omzetten en het opgeslagen bestand bekijken. Dan ben je er nog niet. Je moet ook nog begrijpen wat zich voor jouw ogen ontvouwt. En daar is de juiste representatie-informatie voor nodig.
Sommige representatie-informatie is ín het object opgeslagen zoals de software waarmee het bestand is gemaakt; een ander deel van de representatie-informatie wordt bíj het object opgeslagen (metadata en datadocumentatie). De maker van een object licht bijvoorbeeld de betekenis van bepaalde kolommen in een spreadsheet toe. Met dit soort informatie wordt de bedoeling van de maker duidelijk en kan het informatieobject doen waar deze voor is bedoeld: informatie overdragen.
Het jargon
Digitaal object
Een digitaal object is een reeks van nullen en enen (de bitstream) op één of andere drager, opgeslagen in een bepaald bestandsformaat, gebruikmakend van een specifieke combinatie van software en hardware.
Representatie-informatie
Representatie-informatie is alle informatie die nodig is om een digitaal object om te zetten in een betekenisvol geheel: het informatieobject.
Representatie-informatie betreft niet alleen informatie ín het object , zoals de gebruikte software en datum van creatie (embedded metadata), maar ook informatie die het object zodanig omschrijft (met metadata en documentatie) dat een gebruiker het bestand nu en in de toekomst begrijpt.Informatieobject
Het informatieobject is het bestand dat getoond wordt na een juiste representatie van het digitale object.
Bitrot
Bitrot is de aantasting van digitale data op het laagste niveau. Het gaat om de verslechtering van de integriteit van data bij de transfer of opslag.
Meer weten?
In het artikel ‘Het OAIS-model, een leidraad voor duurzame toegankelijkheid‘ (pdf) van Barbara Sierman kun je nog veel meer lezen over het informatieobject.
Ik vind de definitie van informatieobject verwarrend.
Boven aan de pagina: digitaal object + representatie-informatie = informatieobject.
Verderop in het artikel: Het informatieobject is het bestand dat getoond wordt na een juiste representatie van het digitale object.
Het digitale object bevat alleen embedded metadata.
Representatie-informatie omvat meer dan alleen embedded metadata maar bijv. ook een beschrijving van onderdelen in een digitaal bestand, zoals waar rode lijnen voor dienen of wat gegevens in een kolom van excel betekenen.
De definitie snap ik dus niet helemaal.
Een voorbeeld: Een gebruiker opent een mapje. In dat mapje zit een .xml bestand en een .doc bestand waarin uitleg over de excel staat. Wat is dan nu het informatieobject? Het mapje waar alle data samen in staat en aan de gebruiker wordt gepresenteerd? Of zijn alle de daadwerkelijke interpretaties en representaties van de digitale bestanden (de .xml en de .doc) informatieobjecten?
Om het nog extra verwarrend te maken, het nationaal archief definieert het informatieobject weer anders. Zij zien zowel een e-mail en een complete zaak allebei als informatieobject.
@Lucas, bedankt voor je vraag. Misschien helpt dit je: om een digitaal object te kunnen interpreteren, heb je er meer informatie over nodig. Zoals “De taal van dit document is Japans.” Of: “Rode cijfers in dit spreadsheet betekenen een negatief bedrag.” Of: “Deze reeks enen en nullen is een PDF 1.7-document, en voor het weergeven kun je Adobe Acrobat Reader gebruiken.” De informatie over Japans, rode cijfers en PDF is representatie-informatie. Samen zorgen ze voor een informatieobject (ik denk vaak: onafhankelijk interpreteerbaar of informatief object).
Over je voorbeeld: ik denk dat je in plaats van .xml .xlsx bedoelt, want je schrijft vervolgens Excel. Inderdaad kun je dan het Word-document als representatie-informatie bij het Excel-spreadsheet zien. Ik kan me voorstellen dat je via de bestandsnaam van het Word-document ook aangeeft dat het uitleg geeft bij het Excel-spreadsheet. Of dat je dat via nog weer andere metadata doet. Anders maak je het voor je gebruikers alsnog een lastig te interpreteren geheel.
Terzijde: representatie-informatie heeft dus op zijn beurt soms weer representatie-informatie nodig. Zo kun je in een diep konijnenhol terechtkomen. Want wanneer heb je als OAIS voldoende representatie-informatie aan je gebruiker gegeven? Daar heeft de OAIS-standaard een oplossing voor: de Knowledge Base van je Designated Community. Als jij als OAIS weet, dat jouw primaire gebruikersgroep Japans kan lezen, dan hoef je niet in representatie-informatie aan te geven, dat de taal van een document Japans is. Wel moet je dan ergens publiceren hoe jij jouw Designated Community definieert, anders doe je bezoekers die geen Japans kunnen lezen geen plezier. Uiteraard moet je definitie passen bij de kennis die je redelijkerwijs bij je Designated Community mag verwachten.
Omdat Leren Preserveren niet bedoeld is voor alle details kan ik je het artikel van Barbara Sierman aanraden. Hoofdstuk 4 begint met het informatieobject. Of lees meer over het informatiemodel (bij figuur 4.10) en het konijnenhol van representation information (bij figuur 4.11) in paragraaf 4.2 van https://public.ccsds.org/pubs/650x0m2.pdf.
Dat het NA het informatieobject iets anders definieert klopt. Dat is zo fijn en lastig aan standaarden: dat er zo veel van zijn. De definitie bij Leren Preserveren gaat uit van OAIS en de blik van de archivaris. Die van NA/DUTO van NORA/Records Management en de blik van de archiefvormer. Maar zoals de uitleg bij Bronverwijzingen op https://www.nationaalarchief.nl/archiveren/kennisbank/informatieobject aangeeft, zijn beide definities goed verenigbaar.
Tot slot: OAIS is een referentiemodel, geen blauwdruk. Ook als NA doen we geen concrete uitspraak over wanneer iets een informatieobject is. Dat zul je altijd zelf moeten definiëren en kan van bestandsformaat tot bestandsformaat, informatiesoort tot informatiesoort en aggregatieniveau tot aggregatieniveau verschillen. Een losse e-mail en een complete zaak (met daarin bijvoorbeeld ook e-mails) kunnen inderdaad allebei een informatieobject zijn. Zowel bekeken vanuit de NA-definitie “Een op zichzelf staand geheel van gegevens met een eigen identiteit” als vanuit het OAIS-perspectief van “a Data Object together with its Representation Information”.
Remco van Veenendaal
Preservation Officer
Nationaal Archief
Bedankt voor de toelichting.
Er zijn dus verschillende definities in omloop.
Ik snap wel het uitgangspunt denk ik van de definitie van het informatieobject voor de archivaris. Die wil dat alle informatieobjecten die van waarde zijn door alle tijden heen goed getoond, geïnterpreteerd, beheerd en begrepen kan worden. Vanuit dit perspectief is het digitale object + alle bijbehorende informatie die daarvoor maar nodig is van belang. En samen vormen ze dan een betekenisvol geheel. Een toegankelijk, duurzaam en interpreteerbaar ‘object’.
Het is natuurlijk wel zo dat een .doc bestand dat iets uitlegt over een excel, op zichzelf ook weer een digitaal bestand is + representatie informatie en in die zin ook op zichzelf weer een informatieobject is.
Ik denk dat de NA-definitie helder voor me is. Vaak worden informatieobjecten ingekaderd door iets unieks, 1 rapport heeft een eigen identificatiekenmerk, een bepaald dossier ook. Ik denk dat het erom draait dat het informatieobject als zijn geheel bij elkaar moet blijven om logisch te zijn voor de gebruiker. Daarom is een zaak van een bepaald proces (horecavergunning) vaak al een informatieobject op zichzelf. De gebruiker krijgt dan bij elkaar alle documenten en relevante metadata te zien, zoals eventuele relaties met andere zaken.
Maar een bepaald advies binnen die zaak met een uniek kenmerk is net zo goed ‘Een op zichzelf staand geheel van gegevens met een eigen identiteit.’
Beste lds,
Over bitrot gesproken, je hebt gelijk! Via deze link is het artikel nog wel te vinden. https://zenodo.org/record/1188260#.Yj2A8ufMI2w
groet, Robin
Melding “pagina 404 niet gevonden”: Het OAIS-model, een leidraad voor duurzame toegankelijkheid. Een week geleden werkte de link nog wel.