paragraaf

Sociale media archivering

paragraaf Progress:

In many cases, we must jump in before we have time to figure everything out | Zefi Kavvadia en Robert Gillesse

Sociale media zijn vluchtig. Voor je het weet, zijn je tweets, facebookposts of Instagramposts al ondergesneeuwd door nieuwe berichten in je tijdlijn. Daarnaast zijn sociale media voorbeelden van webcontent met dynamische inhoud, dat wil zeggen dat het om pagina’s gaat die afhankelijk zijn van scripts om te worden weergegeven. De aard van de informatie maakt het uitdagend om de content te archiveren en preserveren. Hoe kun je de informatie tonen zoals deze was op het moment van archivering?

De uitdagingen

Zowel de rol als de techniek van sociale media zijn wezenlijk anders dan van websites. En die verschillen ook nog eens per type sociale media. Dat maakt dat de eisen voor het archiveren van websites niet zonder meer afdoende zijn voor het archiveren van sociale media | Richtlijn archiveren overheidswebsites, Nationaal Archief

De uitdagingen bij het archiveren en preserveren van sociale media zijn enorm. Al was het maar omdat sociale media platformen verschijnen en verdwijnen. Hoe archiveren we WhatsApp en Telegram? Hoe zit het met TikTok, Discord en Twitch? De uitdagingen zijn niet alleen technisch, maar ook juridisch en ethisch:

  • Juridische uitdagingen
    Volgens onze auteurswet is het harvesten of downloaden van digitale publicaties (inclusief nieuwsbrieven, openbare teksten, beeldmateriaal, websites en berichten op sociale media welk platform dan ook) niet toegestaan zonder expliciete toestemming van alle rechthebbenden. Dus alleen al het archiveren van sociale media – zonder enige vorm van beschikbaarstelling – kan problematisch zijn als het niet je eigen sociale media-accounts betreft – of die van de archiefvormer die ze aan je overdraagt. Daar komt nog eens bij dat veel mensen (vaak onbewust) nog al eens materiaal posten waar ze zelf niet de rechten op hebben.

  • Ethische dilemma’s en privacy
    Als het over ethiek gaat, zijn er al helemaal geen pasklare antwoorden. Het is bijna onvermijdelijk dat er altijd ook reacties en comments in een sociale media archief terechtkomen van mensen die zich er helemaal niet bewust van zijn dat hun bijdragen worden gearchiveerd. Iedere instelling moet zijn eigen afweging maken hoe groot dit risico is.
    Aan de andere kant van dezelfde medaille prijkt namelijk de vraag: Als je sociale media archieven niet archiveert, draag je er dan aan bij dat de stemmen van sommige groepen helemaal niet gehoord worden? In hoeverre is anonimiseren van sets van sociale media berichten mogelijk en wenselijk?
Manieren om sociale media te archiveren

Er zijn momenteel grofweg twee manieren om sociale media te archiveren:

  • Look en feel’ (van buitenaf bekeken)
    Bij deze strategie gebruik je browsers en webcrawlers om de sociale media content op te slaan als webpagina’s waar je vervolgens doorheen kunt browsen. Deze files worden opgeslagen als zogeheten WARC ((Web ARChive) files, en kun je opnieuw afspelen met software zoals Replayweb.page, Webrecorder Player, OpenWayBack. Er zijn ook browsergebaseerde tools zoals Brozzler, Browsertrix en Conifer (voorheen Webrecorder) ontwikkeld om de gebruikersinteractie met social media automatisch of handmatig na te bootsen. De browse-ervaring blijft bij deze manier van archiveren (grotendeels) behouden.
  • Het opslaan van gestructureerde gegevens (vanuit het netwerk)
    Hier maak je verbinding met de API van het sociaal media netwerk platform zelf en haal je gegevens op als CSV- of JSON-bestanden (dat wil zeggen zonder enige look en feel). Dit zijn zeer bruikbare bestanden voor data-analyse en visualisatiesoftware. Dit type archivering is niet bij alle sociale media platforms mogelijk. Zo houdt Facebook archivering en toegang tot haar API actief tegen. Social feed manager kan bij Twitter, Flickr, Tumblr en Sina Weibo API-gegevens. Tags is een tool specifiek voor Twitter (zie casus hieronder). Dit vereist in all gevallen een ontwikkelaarsaccount.

Platforms zoals Instagram, YouTube, Vimeo kunnen ook gearchiveerd worden door alleen de fotos’ en video’s te archiveren in plaats van de hele websites.

Casus: Het archiveren van Twitterberichten

Twitter faciliteert onderzoekers wel bij het harvesten van een (beperkte) set aan Twitterberichten met een API. Dat kun je doen met de tool Tags: Twitter Archiving Google Sheet.

Daarbij stelt Twitter een aantal voorwaarden, zoals:

  • Herpublicatie op een website van Twittersets is verboden, sets mogen alleen gedeeld worden voor onderzoek;
  • Sets van meer dan 50.000 berichten mogen helemaal niet gedeeld worden met derden (van sets die bestaan uit meer dan 50.000 Twitterberichten mogen alleen de Twitter-ID’s gedeeld worden);
  • Sets mogen niet downloadbaar zijn vanaf de studiezaal in een computerleesbare vorm (dus een CSV aanbieden mag ook niet);
  • Tweets die van Twitter worden verwijderd moeten door de onderzoeker/erfgoedinstelling ook uit zijn/haar set worden verwijderd binnen 24 uur

Deze beperkingen betreft alleen nog maar de voorwaarden van Twitter; beperkingen die voortvloeien uit de auteurswet en AVG komen daar nog eens bovenop.

Het zou kunnen dat het archiveren van sociale media-accounts van functionarissen in overheidsdienst wordt opgenomen in de Archiefwet, maar dat is het nu nog niet. De meeste gemeenten hebben hier nog geen beleid voor. Vanwege het publieke belang van de uitingen van belangrijke bewindspersonen lijkt in de praktijk meer mogelijk te zijn zonder dat bijvoorbeeld Twitter zelf ingrijpt. Internationaal zijn er voorbeelden van politieke sociale media-archieven die met of zonder toestemming van de personen online zijn gezet zoals het Trump Twitter Archive.

Bron: Netwerk Digitaal Erfgoed.

Een Q&A met experts

Denk je erover te beginnen met het archiveren van sociale media? Dan komen de tips hieronder van Robert Gillesse en Zevi Keffadia, beiden bezig met het archiveren van sociale media bij het IISG, wellicht van pas.

Q: Als jij een beginner uit moest leggen wat de grootste uitdagingen bij sociale media archivering zijn, wat zou je antwoord dan zijn?

Robert Gillesse: De grootste uitdaging bij sociale media archivering is dat je goed moet weten waar je aan begint. De te nemen hobbels – technisch, ethisch, juridisch – zijn best fors. Er moet ook gedegen verzamelbeleid aan ten grondslag liggen – want past social media archivering daadwerkelijk in het bredere verzamelbeleid? Dat ontbreekt er vaak aan waardoor het vaak bij proefballonnen /projecten blijft.

Zefi Kavvadia: Ik ben het eens met de opmerking van Robert dat men moet begrijpen dat er geen eenvoudige knop is om op te drukken. Ik bedoel, het is natuurlijk mogelijk om gebruik te maken van een aantal geautomatiseerde processen die bij bepaalde tools wordt geleverd, maar het betekent niet dat wat je krijgt elke keer nuttig of bruikbaar zal zijn. Dus voordat je het gebruikt, is het goed om eerst te weten wat de tool aan het doen is en ook wat deze niet kan doen. Dan moet je dus ook een plan en een doel hebben (bij voorkeur weerspiegeld in beleid), om erachter te komen of elk hulpmiddel helpt het doel te bereiken.

Q: Welke achtergrondkennis moet je echt hebben voor je begint aan sociale media archivering?

Robert Gillesse: Je hebt kennis nodig om te kiezen hoe je social media wilt archiveren: Als de genoemde look en feel of als gestructureerde data? Als je dat eenmaal hebt vastgesteld is enige computervaardigheid en command-line toolkennis hoogstwaarschijnlijk van belang. Dit is afhankelijk van de archiveringstools die er binnen de instelling gebruikt worden

Zefi Kavvadia: Je moet vooral de verschillende verschijningsvormen van sociale media begrijpen: als mobiele apps, websites, ingesloten formulieren op websites. En je moet vertrouwd raken met elementaire webtechnologieën die ervoor zorgen dat sociale media kunnen functioneren. En command line tool kennis is ook belangrijk inderdaad.

Q: Hoe sta je tegenover de rol van duurzaamheidsbeleid in sociale media archivering?

Robert Gillesse: Ik zou – eigenwijs genoeg – de vraag andersom willen stellen: welke rol heeft sociale media archivering in duurzaamheidsbeleid? Of beter nog: Is er specifiek duurzaamheidsbeleid nodig voor social media materiaal? Ik denk dat het algemene duurzaamheidsbeleid grotendeels ook de lange termijn bewaring van gearchiveerde social media zou moeten kunnen dekken. Wellicht dat er specifiek bestandsformatenbeleid nodig is. Maar terugkomende op jouw vraag zou ik zeggen dat enige vorm van duurzaamheidsbeleid een voorwaarde is om aan sociale media archivering te doen. Zonder dat is het langdurig bewaren van digitaal materiaal erg lastig.

Zefi Kavvadia: Het is erg handig om te proberen sociale media te zien als onderdeel van de bredere verzamelruimte van een organisatie, en te proberen het onderdeel te maken van iemands duurzaamheidsbeleid, in plaats van er apart beleid voor te creëren. Sommige specifieke zaken, zoals hoe je omgaat met privégegevens op sociale media, of hoe je met de formaten omgaat, kunnen nuttig zijn, maar al met al denk ik dat het het beste is om te proberen deze op te nemen in een breder duurzaamheidsbeleid en -strategieën.

Het jargon

API


API staat voor Application Programming Interface, een software-interface die het mogelijk maakt dat twee applicaties met elkaar kunnen communiceren.

WARC-files


WARC staat voor Web ARChive. Het is een internationale standaard voor webarchivering welke de relatie tussen gecrawlde webpagina’s en gerelateerde content behoudt. Het WARC-bestandsformaat is een internationale norm: ISO 28500:2017. Standaardisatie is een voorwaarde voor digitale duurzaamheid.

Meer weten?

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.