E-mailarchivering en -preservering
By the specific actions that archives and libraries take today, they can capture, preserve, and provide access to the evidence that email holds. | The Future of Email archives
In het begin van de jaren zeventig van de vorige eeuw krijgt E-mail zijn plaats als communicatiemiddel. In die tijd wordt het eerste e-mailprotocol – een methode waarmee een communicatiekanaal tussen twee computers tot stand wordt gebracht – ontwikkeld. Rond 1990 neemt het gebruik van E-mail een enorme vlucht en wordt het zelfs de belangrijkste vorm van communicatie.
Het belang van E-mailarchivering en preservering is groot: E-mail is een belangrijke bron van informatie als het gaat om verantwoording, bewijs en het documenteren van besluitvorming. Ook vormt E-mail een fantastische bron voor onderzoek naar hedendaagse geschiedenis. In de New York Times zegt Farhad Manjoo hierover dat E-mail het opgraven van bijna ieder willekeurig verhaal mogelijk maakt. Door het archiveren en preserveren van E-mail kunnen culturele en maatschappelijke ontwikkelingen van context worden voorzien.
Het is aan erfgoedinstellingen om deze geweldige bron van informatie te benutten. Het is daarbij belangrijk dat instellingen voor alle fasen in de levenscyclus van E-mail – van de verwerving, selectie, opname tot aan het preserveren van E-mail – een heldere aanpak opstellen, die afgestemd is op het collectie- en duurzaamheidsbeleid.
De uitdagingen
De uitdagingen bij het archiveren en preserveren van E-mail liegen er niet om. Het rapport The Future of Email Archives gaat hier uitgebreid op in. Het gaat om uitdagingen die voortkomen uit:
- De aard van E-mail
De inhoud en indeling van een mailbox kan zeer divers zijn. Zelfs als er gewerkt wordt met handleidingen of sjablonen of E-mail onderdeel is van het documentmanagement. Hierdoor zijn processen of taakuitvoeringen lang niet altijd terug te zien in de indeling van mailboxen.
In de loop van de tijd neemt E-mail verschillende vormen aan. Er worden verschillende toepassingen en apparaten gebruikt voor het samenstellen, lezen, organiseren, opslaan en onderhouden van E-mailverzamelingen. Veel van de bedoelde functies van E-mail geven haar een technische complexiteit die archivering en preservering lastig maken. Zo zijn uiterlijk en structuur van een E-mail bijvoorbeeld afhankelijk van de applicatie en het apparaat die toegang geven. Het is belangrijk kennis te hebben van deze afhankelijkheden, al was het maar omdat deze ook op kunnen treden wanneer bij archivering normalisering plaatsvindt. In haar preserveringstrategie moet een organisatie omschrijven hoe zij hiermee om denkt te gaan.
DIY: Zoek de verschillen
Bekijk hetzelfde E-mailbericht in bijvoorbeeld de Outlook-applicatie op je PC, in de webapplicatie en op je smartphone of i-Phone. Welke verschillen vallen je op?
- De technische opbouw van E-mail (en bijlagen)
De technische opbouw van E-mail stelt bijzondere eisen aan archivering en preservering. Een E-mailbericht is opgebouwd uit een aantal onderdelen. Het gaat om de header, die bestaat uit datum, tijd, onderwerp, aan/van/cc/bcc/beantwoorden/doorsturen, de berichttekst en de bijlage (bestand of URL). Verder bevat E-mail transmissiedata, die de authenticiteit en integriteit van E-mail ondersteunen. Zij doen verslag van de transacties die hebben plaatsgevonden. De data maken deel uit van de gebruikte E-mailaccounts en het gebruikte E-mailsysteem. Bij de verwerving van E-mail is dan ook veel aandacht nodig om te bepalen welke van deze data – met het oog op authenticiteit en integriteit – gearchiveerd moeten worden.
De uitdagingen bij archivering van E-mail mét bijlagen zijn nog complexer:- De overschrijding van de aangegeven maximum grootte kan een probleem vormen;
- Bijlagen kunnen bestaan uit specifieke bestandsformaten die geen onderdeel zijn van het voorkeursformatenbeleid. Hoe gaat een instelling hiermee om?
- Als de bijlage een URL is, dan is linkrot de grootste bedreiging. Linkrot is het verschijnsel dat webpagina’s niet meer bereikbaar zijn omdat het webadres is veranderd. Het verlies van (toegang tot) internetbronnen kan de informatiewaarde van een E-mail aantasten. Deze uitdaging bevindt zich echter buiten het domein van E-mailpreservering.
- Het gebrek aan gestandaardiseerde technische oplossingen
Software voor E-mailarchivering maakt pas recent grote ontwikkelingen door. De software kent vaak meerdere functies, zoals ondersteuning van waardering en selectie, preservering en normalisering, opslag en toegang. Het is belangrijk vast te stellen wat jij wilt dat software voor jou doet en hoe je de software inzet binnen het geheel van je informatiebeheer. Veelgebruikte software voor E-mailarchivering is ePADD, EAS, en DArcMail. Tussen de beschikbare tools is er nog weinig standaardisatie en interoperabiliteit. Een aantal andere tools die bij preservering en normalisering betrokken zijn: Aid4Mail, Emailchemy, BitCurator, Libpst /Readpst, Outlook to MBOX, PST to MBOX, Intrigua en Amatica-epadd. - Het vertrouwelijke karakter van veel E-mails
Veel informatie in E-mails heeft een deels vertrouwelijk karakter en bevat informatie die niet zonder meer bewaard mag worden. Hoe breng je de opdracht van de instelling in lijn met de wettelijke kaders en andere voorwaarden voor de bewaring en raadpleging? Waardering, selectie, opname, beheer, preservering en toegang spelen zich af binnen de vertrouwensband met de archiefgever. Het implementeren van afspraken kan moeilijk zijn. Sommige instellingen zullen ervoor kiezen E-mail voorlopig als dark archive te beheren en alleen toegang te bieden onder voorwaarden. - De kwaliteit van E-mailbeheer bij de archiefvormer
Een goed beheer van E-mail bij de archiefvormer is niet vanzelfsprekend. Er zijn vaak grote verschillen in werkwijze binnen organisaties en tussen medewerkers onderling en E-mail wordt op allerlei manieren en voor allerlei doelen gebruikt. Dat maakt het moeilijk om een one-size-fits-all oplossing te implementeren voor het beheer van E-mail.
E-mailformaten
Het E-mailformaat hangt af van de E-mailapplicatie en het besturingssysteem. Het native bestandsformaat voor Outlook is MSG, voor Apple Mail is dat EMLX. Voor archivering en preservering geldt EML als preserveringsstandaard. EML is een archiveringsformaat – ontwikkeld door Microsoft – dat ook door een aantal andere applicaties ondersteund wordt en dat in grote mate interoperabel is, maar meestal niet voor Apple applicaties. Voor het bewaren van exports uit E-mailaccounts is de preserveringsstandaard MBOX beschikbaar. Voor exports vanuit accounts gebruikt Outlook het PST-formaat. Het PST-formaat is volgens het voorkeursformatenbeleid van het Nationaal Archief een acceptabel formaat voor archivering, net als het MSG-bestandsformaat. Outlook voor Apple kent voor exports vanuit accounts OLM als eigen formaat. Apple Mail ondersteunt hier ook MBOX. OLM is niet uitwisselbaar met Outlook voor Windows. Voor omzetting van PST (en andere eigen formaten) naar MBOX is aanvullende software nodig.
Waardering en selectie
De uitdaging bij waardering, selectie en verwerking van E-mail is enorm. De uitdaging ligt in de hoeveelheid, de diversiteit, het gebrek aan (herkenbare) ordening, het gebrek aan ontstaanscontext, de aanwezigheid van vertrouwelijke informatie, de aanwezigheid van privé-mail of van niet relevante informatie. Niet waarderen en selecteren is echter geen optie. Alles archiveren en preserveren zal vaak leiden tot hoge kosten, een matige toegang, verlies aan context en moeilijk implementeerbare raadpleegbeperkingen.
Drie methoden voor waardering en selectie van e-mail
Het collectiebeleid vormt het uitgangspunt voor waardering en selectie van E-mail. In het collectiebeleid staat welk belang de organisatie hecht aan E-mail als bron van informatie en welke categorieën E-mail zij vooral wil archiveren en preserveren. Vervolgens zijn er drie benaderingen mogelijk voor de waardering en selectie:
I. Punten scoren
Door het stellen van vragen kan een E-mail op diverse punten gescoord worden op waarde. Denk bij de waardering van individuele E-mails aan vragen zoals:
- Hoe is de mail onderdeel van een discussie (‘E-mail thread’)?
- Is het daarbinnen de beste E-mail of versie?
- Is de E-mail de eerste of laatste in een discussie (‘thread’)?
- Zeggen afzender of geadresseerde (actoren) iets over het belang van de E-mail?
- Behoort de E-mail tot een proces of taakuitvoering?
- Behoort de E-mail tot de processen van afdeling of organisatie of tot ‘extern’?
- Bevat de E-mail gevoelige of vertrouwelijke informatie (zoals BSN-nummer of creditcardnummer)?
- Vervangt de E-mail een andere wijze van communiceren, bijvoorbeeld een telefoontje?
- Is de E-mail vertrouwelijk of zakelijk?
- Is de mail belangrijk of onbelangrijk (bijvoorbeeld om het privé-mail betreft)?
Naarmate deze methode in de toekomst steeds meer geautomatiseerd uitgevoerd kan worden, leidt dit tot een meer haalbare waardering en selectie. Het Nationaal Archief heeft een pilot opgezet rond automatisering van waardering en selectie.
II. Sampled Collection
De methode ‘sampled collection’ is een methode waarbij je een vastgesteld percentage van de E-mailberichten bewaart. Zo kun je bijvoorbeeld besluiten om van de 3000 mails (uit één account of van diverse herkomst) er 100 te bewaren. Je kunt binnen je selectie bepaalde typen informatie, zoals bijvoorbeeld vertrouwelijke informatie, uitsluiten. Met deze methode beperk je de hoeveelheid mail die je bewaart. Deze methode is daarom vooral geschikt als aanvullende methode. Het is belangrijk om het gebruik van sampling binnen je collectiebeleid en waardering en selectie te verantwoorden.
III. De CAPSTONE-methode
De CAPSTONE-methode – ontwikkeld door NARA – is gebaseerd op het bewaren van accounts van sleutelfunctionarissen. Hierdoor hoeven niet-geselecteerde E-mail accounts slechts voor beperkte duur bewaard te worden. Binnen CAPSTONE is er aandacht voor de verantwoordelijkheden van de ‘sleutelfiguren’ voor het beheer van hun account. Er blijft echter een tweede waardering en selectie nodig om vertrouwelijke informatie te kunnen filteren en om eventuele zwaktes in het accountbeheer te repareren.
In Nederland wordt de CAPSTONE-methode toegepast door het Nationaal Archief. Er vindt hier echter nog geen openbaarmaking plaats.
Preserveringsstrategieën
Een preserveringsstrategie is een strategie om te voorkomen dat E-mail vroegtijdig onbruikbaar wordt. Voor het preserveren van E-mail heeft bit preservering de eerste prioriteit, gevolgd door functionele preservering.
- Bit preservering
Bit preservering ondersteunt een veilige en integere bewaring van E-mails. Dit is de eerst te volgen aanpak voor preserveren van E-mail en voldoet vaak zolang er nog grote raadpleegbeperkingen gelden voor E-mailarchieven. Ook is realisatie van bit preservering budgettair beter haalbaar. - Functionele preservering
Functionele preservering is gewenst voor het lange termijn behoud van de informatie en kenmerken van E-mails. Dat gebeurt door deze om te zetten naar een ander, duurzaam bestandsformaat (migreren) of door de oorspronkelijke omgeving (software, besturingssysteem) na te doen (emulatie). Dit vraagt een grotere investering. Er is ook software nodig die migratie of emulatie ondersteunt.
Het jargon
E-mailprotocol
Een E-mailprotocol is een methode waarmee een communicatiekanaal tussen twee computers tot stand wordt gebracht en vervolgens een E-mail tussen deze twee wordt overgedragen. Bij het overdragen van een E-mail zijn een mailserver en twee computers betrokken. De ene computer verzendt de E-mail en de andere ontvangt deze. De mailserver – of het cloudsysteem – slaat de E-mail op en laat het ontvangende apparaat deze openen en indien nodig downloaden. Er zijn vier verschillende mailprotocollen: POP3, IMAP, SMTP en HTTP. Deze protocollen verschillen in de manier waarop ze verbindingen tot stand brengen en waarop ze gebruikers toegang tot E-mails bieden.
Emulatie
Emulatie is een duurzaamheidsstrategie gericht op het behoud van digitale bronnen zoals ze oorspronkelijk zijn vervaardigd en gebruikt. Door emulatietechnieken toe te passen wordt het mogelijk het gedrag van een verouderde computer na te bootsen op een andere (nieuwere) computer. Emulatie kan op vier aspecten van een computer van toepassing zijn: de hardware, het besturingssysteem, de bijbehorende software en de digitale objecten die met die software zijn vervaardigd.
Normalisering
De omzetting naar een bestandsformaat dat duurzamer wordt geacht binnen het duurzaamheidsbeleid en de preserveringsstrategie van een organisatie.
Meer weten?
- Bekijk de handreiking bewaren van e-mail van de Rijksoverheid.
- De overheid heeft onderzocht of ze op een geautomatiseerde manier op grote schaal gemakkelijk functionele mails (die bewaard zouden moeten worden) en niet-functionele mails of ruis kunnen scheiden. Het experiment heeft uitgewezen dat zelflerende systemen kunnen bijdragen aan een betere informatiehuishouding. Je kunt er meer over lezen in het rapport met de naam ‘Machine Learning en automatische classificatie‘.