AI als assistent van de onderzoeksjournalist

Kunstmatige intelligentie is uitermate geschikt voor het automatiseren van saaie, repetitieve taken. In dit derde deel van het vierluik over AI in de journalistiek, hoe algoritmes onderzoeksjournalisten ondersteunen.

Dit artikel is oorspronkelijk verschenen in Villamedia op 28 juni 2021.

Eind vorig jaar werden er in de Westelijke Sahara plots 1.8 miljard bomen gevonden. Het gebied, dat doorgaans wordt afgebeeld als dorre zandvlakte – bleek veel meer vegetatie te bevatten, dan tot dusver werd aangenomen. De bomen werden niet ontdekt door een toevallige passant, maar door een supercomputer en onderzoekers uit Kopenhagen. Tot dusver was informatie over het gebied gebaseerd op schattingen en aannames. Het handmatig in kaart brengen van het gebied dat circa 1.3 miljoen vierkante kilometer bevat, zou immers veel te veel tijd kosten. Kunstmatige intelligentie bracht daar verandering in. Middels hoge resolutie satellietbeelden en een slim algoritme, werden bomen en andere objecten moeiteloos van elkaar onderscheiden. Het systeem optuigen, de beelden verzamelen en de computer de benodigde berekeningen laten doen waren weliswaar complex, maar valt in het niet bij de tijdwinst.

Een van de collega’s die inmiddels dicht bij huis van de algoritmische hoed en de rand weet is Coen van de Ven. Als journalist bij De Groene Amsterdammer deed hij samen met wetenschappers van de Universiteit Utrecht onderzoek naar het percentage haatdragende Tweets richting vrouwelijke politici. Het onderzoek toont een schrikbarende uitkomst – zeker tien procent van alle berichten bevat haatdragende of agressieve inhoud. Sigrid Kaag krijgt het zwaarst te verduren, circa elke 15 minuten ontvangt de D66-leider een intimiderend bericht. Ondanks deze misère is het onderzoek ook een prachtige voorbeeld waar de voordelen van machine learning tot zijn recht komt. Van de Ven, een zelfbenoemd ‘enorme alfa’, analyseerde met behulp van de wetenschappers en de computer-assistent ruim één miljoen tweets die verstuurd waren tussen 1 oktober 2020 en 26 februari 2021. Om de machine te leren in het herkennen van vervelende reacties, labelden ze ruim 10.000 tweets handmatig – de beoordeling werd onderling gecrosscheckt om te zien of er geen foute labels waren gegeven. Het hele traject kostte het team enkele maanden, ook omdat ze voor de productie diverse interviews met de betrokkenen wilde afnemen. “Het spannende was, of we het systeem konden trainen op een hoge mate van betrouwbaarheid. Als het systeem te onvoorspelbaar bleek, hadden we veel werk voor niets gedaan. In dat geval zouden we over zijn gegaan op een steekproef van de verzamelde tweets. Het siert de hoofdredactie dat ze ons de ruimte hebben gegeven om hiermee te experimenteren.”

Het gebruik van machines kwam niet alleen het onderzoek ten goede, het zette Van de Ven en zijn collega’s ook aan het denken over objectiviteit. “Voordat je een machine learning-model gaat trainen moet je heel veel tweets handmatig gaan voorzien van labels, bijvoorbeeld ‘agressief’, ‘seksistisch’ of ‘niets aan de hand’. Dan ga je met elkaar discussie voeren wanneer iets seksistisch is. De ene vindt een reactie als ‘ach meisje’ niet zo erg, terwijl een ander dat als denigrerend bestempelt. Of neem de opmerking ‘daar moet een piemel in’, wat met enige regelmaat voorbij komt. Is dat dreigend, is het een oproep, is het haatdragend of een flauwe carnavalsleus? Bij het doornemen van de eerste set tweets, lagen de meningen behoorlijk ver van elkaar af. Daar hebben we veel discussie over gevoerd en besloten om bij twijfelgevallen voor het minst heftige label te gaan. Wij schrijven veel over hoe tech-bedrijven ‘bias’ bedoeld en onbedoeld in hun algoritmes hebben zitten. Als je met machine learning aan de slag gaat, merk je hoe snel die vooroordelen en subjectiviteit de systemen insluipen. Als je met machine learning aan de slag gaat, merk je pas dat vooroordelen of subjectiviteit juist bij de mensen zitten die deze systemen hebben getraind.”

Van de Ven vertelt graag over zijn ervaringen bij het werken met data en algoritmes en is daarom geregeld te gast bij de cursus Praktisch aan de slag met Artificial Intelligence van Laurens Vreekamp. Vreekamp verdiende zijn strepen onder meer bij Google News Lab en is oprichter van Future Journalism Today. “In de cursus zie ik mijzelf als rijinstructeur. Ik neem journalisten mee in het besturen van algoritmes, maar gaan niet zelf de motor bouwen. We leggen de fundamenten uit van de theorie, maar gaan er ook zelf mee aan de slag. Zo ervaren cursisten ineens dat er heel veel handwerk komt kijken bij het trainen van een model, maar ook dat je geduld moet hebben. Zelfs als je het rekenkracht aan een clouddienst uitbesteed, kan je zomaar een of meerdere dagen moeten wachten totdat je dataset verwerkt is. De toepassingen waar cursisten mee aan de slag gaan lopen enorm uiteen: we hebben emblemen gelabeld van leden van extreem-rechtse groeperingen, zodat we op basis van foto- en videomateriaal bij protesten konden herkennen welke organisaties of zelfs specifieke chapters daarbij aanwezig waren. Een andere cursist wilde niet zozeer zelf werken met algoritmes, maar onderzoekers en bedrijven die dat wel doen inhoudelijk kunnen bevragen over hun werkwijze en methodes. Er zijn organisaties als Algorithm Watch die dit doen, maar het is ook goed om als journalist zelf die basiskennis te hebben.”

Een van de cursisten van Vreekamp is de doorgewinterde datajournalist Jerry Vermanen. Vermanen verdiept zich al tien jaar in de mogelijkheden van data en won onlangs met werkgever Pointer (KRO-NCRV) een journalistieke Tegel – zijn tweede. “Als ik zie hoe er vandaag de dag over AI wordt gesproken, doet mij dat erg denken aan de beginjaren van data in de journalistiek. Er worden veel aannames gedaan en hoewel er veel over wordt gesproken, zijn maar weinig mensen er echt mee bezig. Tegelijkertijd is het een fascinerende tijd: je kunt weer gaan pionieren. Dat vraagt wel wat vertrouwen in jezelf en van je redactie, want experimenten vragen veel tijd en kunnen ook hopeloos mislukken.” Voor de praktijkopdracht bij de cursus van Vreekamp, besloot Vermanen een model te trainen dat automatisch vuurwapens kon herkennen in afbeeldingen die op Twitter worden geplaatst. “Het idee is dat je geautomatiseerd bedreigingen in de gaten zou kunnen houden. Dat begint bij het verzamelen van tweets met specifieke keywords zoals ‘9mm’ en ‘bullet’, die ook een afbeelding bevatten. Vervolgens gebruikte ik een gratis tool genaamd Lobe.ai die je eenvoudig kunt trainen op het herkennen van objecten op foto’s. Daarvoor heb ik een stuk of vijfhonderd voorbeeldafbeeldingen gebruikt en een scriptje om het proces te versnellen. Dit is grotendeels handwerk en een tijdrovend klusje, maar als je een podcast of Spotify-playlist opzet, ga je er ook zo doorheen. Toen ik het systeem ging testen, was er een soort magie wat er plaatsvond: ik drukte op een knop en foto’s van Twitter werden met 97% betrouwbaarheid beoordeeld of er wel of geen vuurwapen op te zien was. Dergelijke systemen zullen gemeengoed worden voor onderzoeksjournalisten. Ons werk is enorm tijdrovend en alles wat je kan helpen efficiënter te werken, moet je met beide handen aangrijpen.”

Vermanen, Vreekamp en Van de Ven en zijn in Nederland de uitzondering op de regel. Hier wordt in de journalistiek nog maar mondjesmaat gebruik gemaakt van de mogelijkheden die kunstmatige intelligentie biedt. Dat blijkt uit analyse van Yael de Haan, lector kwaliteitsjournalistiek in digitale transitie aan de Hogeschool Utrecht. Samen met haar team deed ze het afgelopen jaar onderzoek naar het gebruik van algoritmes en zelflerende computersystemen in het werkveld. Hiervoor spraken ze met zevenentwintig journalisten uit de over hun ideeën en daadwerkelijke ervaringen in het werken met de technologie. De conclusie: er is veel debat gaande over de rol, mogelijkheden en uitdagingen van AI, maar als handlanger in het productieproces worden AI-tools zelden ingezet. “Je merkt dat er veel te doen is rondom de mogelijkheden van AI als het gaat over de distributie van artikelen zoals recommendation engines die gepersonaliseerde nieuwsfeeds maken of hoofdredacties en uitgevers die filosoferen over de mogelijkheden in de verre toekomst. Wat opvalt, is dat er bij journalisten op de vloer nog veel onwetendheid is over de technologie. Er gaan veel ‘folk theories’ de ronde, voortgekomen uit een beeld dat je over iets hebt gevormd – maar dikwijls niet gebaseerd op feiten. Deze folk theories staan je werk als journalist in de weg. Als gatekeeper van de informatiesamenleving is het belangrijk dat je begrijpt hoe algoritmes – of het gaat om zoekmachines of sociale media – werken en hoe ze jouw werk beïnvloeden. Nu wordt het vaak gezien als een black box waarbij je geen idee hebt waarom bepaalde resultaten eruit komen. Bovendien is het belangrijk te beseffen dat je er dagelijks middels de algoritmes achter zoekmachines en sociale media al mee te maken hebt. Deze basiskennis is essentieel om je werk goed te kunnen doen. Journalisten moeten beseffen dat AI geen hype is. Het is hier, gaat niet meer weg en beïnvloed in rap tempo je werkveld. Om bij te blijven zal je jouw kennis hierover moeten bijspijkeren. Daar is ook een grote rol weggelegd voor de journalistieke onderwijsinstellingen.” Jerry Vermanen sluit zich daarbij aan: “Je moet je als journalist blijven ontwikkelen om relevant te blijven. Nu lijkt AI op het eerste gezicht intimiderend, omdat je geen achtergrond hebt in wiskunde of statistiek. Het mooie is: dat heb je helemaal niet nodig. Technisch wordt er met verschillende software heel veel werk uit handen genomen. Ik zou iedereen aanraden zich er nu in te verdiepen en die voorsprong te pakken.”

—–

Volgens Coen van de Ven is het belangrijk om als journalist en redactie te kunnen verantwoorden op welke wijze machine learning is toegepast en op basis van welke data mogelijke modellen zijn getraind. Bij het onderzoek naar seksisme op sociale media jegens vrouwelijke politici is een uitgebreid procesverslag gemaakt, die is te lezen op de website van De Groene Amsterdammer. Een vergelijkbare publicatie van het medium werd onlangs genomineerd voor de aanmoedigings-categorie van De Loep, de prijs voor onderzoeksjournalistiek.