Wat algoritmes voor de journalistiek betekenen

Dit artikel is oorspronkelijk verschenen in Villamedia op 8 februari 2021.

Net als bij de komst van het internet staan we opnieuw aan de vooravond van een technologische revolutie. Kunstmatige intelligentie (AI) gaat de komende jaren de journalistiek, bedrijven en de samenleving radicaal veranderen. In deze vierdelige serie schetst Villamedia de belangrijkste ontwikkelingen die van invloed zijn op jouw rol als journalist. Deel een: de introductie.

“In 2020 wordt 90% van de artikelen door robots geschreven”, dat voorspelde hoogleraar Emiel Krahmer van de Universiteit Tilburg eind 2016 tegenover platform Nieuwe Journalistiek. Hoewel er vorig jaar tientallen journalisten door Microsoft op straat werden gezet om ze te vervangen door geautomatiseerde berichtgeving en Chinese staatsmedia experimenteerde met digitale nieuwslezers, zit de voorspelling van Krahmer er vooralsnog ver naast. Dat betekent niet dat kunstmatige intelligentie enkel toekomstmuziek is.

Sterker nog, de technologie is niet meer weg te denken uit ons dagelijkse leven. Een eenvoudige zoekopdracht via Google was niet mogelijk geweest zonder intelligente systemen die uit triljarden webpagina’s de meest relevante resultaten toont. Of neem de Amerikaanse verzekeraar Lemonade, die sinds kort ook in Nederland actief is. Het vijf jaar oude bedrijf besloot niet te investeren in dure kantoorpanden op Manhattan, maar in algoritmes die razendsnel kunnen bepalen of een claim valide is of niet. Het bedrijf heeft inmiddels het wereldrecord te pakken voor het uitkeren van 700 dollar voor een gestolen jas. Het had daar welgeteld 3.6 seconde voor nodig.

Ook dichter bij huis innoveren diverse bedrijven en zelfs overheden er lustig op los. Online Supermarkt Picnic kan dankzij grote hoeveelheden data hypernauwkeurig voorspellen wanneer de boodschappen voor je deur staan. Dankzij algoritme was het bedrijf in staat om in een paar jaar een geduchte concurrent te worden van grootmachten als Jumbo en Albert Heijn. De Gemeente Amsterdam voorziet vuilniswagens van camera’s met beeldherkenning. Herkent de camera grofvuil zoals een matras of bank, dan gaat er binnenkort een automatisch seintje naar de reinigingsdienst die het direct kan ophalen. Toen diezelfde camera-technologie tegen ze werd gebruikt, was het stadsbestuur minder blij. Een startup die met slimme camera’s parkeerwachters in de hoofdstad herkent en verklikt, heeft een rechtszaak aan zijn broek.

Een van de meest fascinerende toepassingen voor de journalistiek zag afgelopen zomer het levenslicht. Een algoritme met de obscure naam GPT-3 verbaasde al snel experts van over de hele wereld. GPT-3 is namelijk een taalgenerator dat heeft leren schrijven door miljarden webpagina’s te doorzoeken. Daardoor kan de techniek niet alleen beangstigend goed teksten verzinnen, het systeem kan het zelfs doen in het taalgebruik van een bekend persoon. Wil je een brief namens Winston Churchill? Geen probleem. Speech zoals Obama? Kom maar op. The Guardian publiceerde zelfs een opiniestuk ‘namens’ het algoritme, waarin het ‘opriep’ niet bang te zijn voor de komst van de robots. Hoewel het stuk taaltechnisch goed in elkaar zat, was er ook een kanttekening. De redactie had GPT-3 acht opiniestukken laten genereren en pikte de beste alinea’s eruit.

Alexander Klöpping en De Correspondent-oprichter Ernst-Jan Pfauth wisten de luisteraars van hun Podcast over Media te verbazen, nadat ze halverwege een aflevering bekend maakten dat het script was geschreven door – inderdaad – GPT-3. De bedenker van het algoritme, Sam Altman van Open AI, tempert ondertussen de verwachtingen. Hij zegt op Twitter dat de techniek nog lang niet is uitontwikkeld en dat er nog veel fouten inzitten. Het belooft in elk geval veel voor de nabije toekomst.

Kunstmatige intelligentie is inmiddels actueel, maar zeker geen nieuwe uitvinding. Al in 2012 vroeg de Amerikaanse journalist Steven Levy in maandblad Wired zich af of een algoritme wellicht betere verhalen kon schrijven dan zijn menselijke collega’s. De technologie was toen al decennia oud. Het vindt zijn oorsprong in 1956 tijdens de zogeheten Dartmouth Conference. Hier kon een groep wetenschappers acht weken lang vrijuit filosoferen over de toekomst van de ‘thinking machines’. De term Artificial Intelligence was geboren.

Gedurende de jaren kon het af en aan rekenen op veel interesse vanuit de wetenschap, het bedrijfsleven en overheden. Waarna kritische geluiden (‘een computer zal nooit een mens kunnen evenaren’) onderzoek en financiering tot tweemaal toe in een winterslaap suste. Niet zonder tussentijdse doorbraken: de eerste chatbot (ELIZA genaamd) komt uit 1966, in 1986 bouwde techneuten van de Carnegie Mellon universiteit een bus die zelfstandig over de campus kon rijden en in 1997 versloeg IBM’s toenmalige supercomputer Deep Blue schaakgrootmeester Garry Kasparov. Volgens experts uit die tijd een onhaalbaar doel.

Filosoof, auteur en televisiemaker Bas Haring kan zich het goed herinneren. Hij studeerde destijds als één van de eerste Nederlanders af in de kunstmatige intelligentie. ‘Docenten waren ontsteld: hoe had dit kunnen gebeuren? Een computer zou immers nooit ofte nimmer kunnen winnen in een spel dat creativiteit en inzicht vereiste. Ditzelfde zie je nu gebeuren met de discussie rondom zelfrijdende auto’s en straks met iets anders. Computers zijn hartstikke intelligent, alleen komt een machine op andere manieren tot antwoorden dan hoe onze hersenen informatie aan elkaar knopen.’ De reden dat kunstmatige intelligentie de laatste paar jaar een vlucht heeft genomen, is te danken aan twee ontwikkelingen. Om algoritmes aan het werk te zetten, wat techneuten dikwijls ‘trainen’ noemen, zijn drie ingrediënten nodig: knappe koppen die verstand hebben van hogere wiskunde en statistiek, een hoop rekenkracht en bovenal verschrikkelijk veel data. Talent, dat was er ook al in de jaren 50. Rekenkracht is met de komst van de cloud diensten van Amazon, Google en Microsoft meer en meer beschikbaar, maar data, dat is echt en ding van de laatste jaren.

Een voorbeeld: om een computer te leren om een kat op een foto te herkennen, heb je tienduizenden, zo niet honderdduizenden foto’s nodig die als voorbeeld dienen. Elke foto moet handmatig worden voorzien van een label: wel een kat te zien of geen kat te zien. Het algoritme gaat zelfstandig in de foto’s overeenkomstigheden zien om bij het volgende exemplaar zelf met grote zekerheid te kunnen zeggen: ik ben er 99% zeker van dat op deze foto een kat te zien is. Hetzelfde geldt voor honden, paarden, gezichten of een verkeersbord voor een zelfrijdende auto of het herkennen van woorden en zinnen in Google Home, Amazon Alexa of Apple’s Siri. Je kunt je voorstellen: er komt nogal wat mensenwerk bij kijken om algoritmes aan de praat te krijgen.

Terug naar de journalistiek. Want ook op de werkvloer zien we dat de algoritmes zijn intrede doen. Zo heeft de redactie bij Nu.nl sinds vorig jaar een robotcollega die helpt bij het modereren van reacties. Maura (wat staat voor ‘Machine voor automatisch reacties afhandelen’) bekijkt alle reacties op NUjij en velt bij 80 procent daarvan een oordeel of ze wel of niet geplaatst mogen worden. In een interview met Villamedia legt adjunct-hoofdredacteur Colin van Hoek uit: “We hebben alle reacties die tussen eind 2018 en eind 2019 op NUjij zijn geplaatst aan Maura gevoerd, met daarbij per reactie de melding of hij goed- of afgekeurd was.

Aan de hand van die data heeft Maura geleerd waar wij reacties op afkeuren.” Van Hoek bevestigt dat het inzetten van moderatiebot Maura niet bedoeld is om collega’s te vervangen. Het bevrijdt mensen van saaie, repetitieve taken, waardoor ze tijd hebben voor nuttig werk: ‘Voor follow-ups was vanwege de werkdruk vaak geen tijd. Met Maura spelen we onze mensen daarvoor vrij.’ Ook het ANP heeft zijn weg gevonden in de automatisering van vervelende klusjes. Met behulp van software voorziet foto’s in de beeldbank sinds afgelopen jaar automatisch van de juiste tags door middel van beeldherkenning.

De VPRO organiseerde het AI Songfestival waarbij teams uit verschillende landen een origineel songfestivallied moesten ontwikkelen middels – je raadt het – kunstmatige intelligentie. Organisator Karin van Dijk zegt hierover: ‘”Een team heeft bijvoorbeeld de songtekst van hun lied in eerste instantie gegenereerd op basis van het online forum Reddit. Daar kwamen vervolgens heel anarchistische teksten uit. Een ander team liet de computer lyrics uitspreken op basis van geluiden. Daar kwam een hoop gebrabbel uit, waar ze naar gingen luisteren alsof de computer hun iets wilde vertellen. Het was net aan het begin van de coronacrisis, dus hoorden ze teksten over een pandemie en een jongen die verliefd werd. Een antropomorfisch experiment dus.” Verder van huis is persbureau AP bezig met het automatiseren van samenvattingen van artikelen en de Washington Post controleert of artikelen voldoen aan het stijlboek van de krant. Andere experimenten richten zich op het genereren van invalshoeken voor artikelen, het samenvatten van wetenschappelijke publicaties en het ontmaskeren van nepnieuws.

Zoals je leest biedt kunstmatige intelligentie vele voordelen: het verlost je van saaie taken, het denkt mee over artikel-ideeën, kan bronnen controleren of zelfs hele paragrafen voorkauwen. Er is zelfs een chatbot die voxpops en andere interview-quotes afneemt. Toch schuilt er ook een keerzijde die niet over het hoofd moet worden gezien. Ten eerste is er de zogeheten bias, algoritmes zijn bewust of onbewust nou eenmaal bevooroordeeld. Algoritmes leren immers van de data die je zelf invoert, voer je de verkeerde data in, geeft het systeem verkeerde aanbevelingen of voorspellingen.

Zo trainde Amazon een algoritme voor het vinden van de beste programmeurs voor het bedrijf. Een probleem: de cv’s waar het van leerde waren van overwegend witte mannen van middelbare leeftijd. Vrouwen en mensen van kleur werden door het algoritme dan ook automatisch in het bakje “afwijzen” gestopt. Het bedrijf heeft snel de stekker uit het systeem getrokken. Unilever heeft laten zien dat het omgekeerde ook waar kon zijn: dankzij algoritmes zijn meer dan de helft van de leidinggevende binnen het bedrijf inmiddels vrouw. Naast deze bias is het trainen van algoritmes een dure aangelegenheid.

Voor GPT-3 wordt er geschat dat er zeker 12 miljoen dollar is geïnvesteerd. Daarnaast is ook de energie-behoefte van de benodigde datacenters grandioos. Hetzelfde Open AI trainde een robothand om een Rubiks kubus op te lossen. Daarvoor was evenveel energie nodig om de kerncentrale in Borssele zes uur te laten draaien. Dan heb je nog de filter bubbel die het afgelopen jaar pijnlijk duidelijk is geworden. De algoritmes van Youtube, Facebook en andere sociale media lieten de gebruikers vooral zien waar ze lang naar kijken. Voor je het weet zit menig kijker in de fabeltjesfuik van Arjan Lubach en gelooft je tante dat covid-19 is bedacht door Bill Gates of veroorzaakt wordt door 5G. Ook zijn er de deepfakes.

Vandaag de dag gebruikt voor jolige filmpjes waarbij het gezicht van een vriend of vriendin op het hoofd van een bekende acteur of actrice wordt geplakt. Steeds minder mensen kunnen echter het onderscheid tussen echt en nep herkennen. In NRC viel afgelopen jaar te lezen dat een Nederlandse onderzoeker beelden van voormalig CDA-leider Sybrand Buma middels deepfake-technologie had bewerkt. Slechts acht van de 140 ondervraagden had door dat een woordgrap over de kruisiging van Jezus niet echt door Buma was gezegd. Een cruciale vraag voor het beroepsveld is dan ook: hoe weet jij of de ontvanger straks of audio en video authentiek zijn?

Tot slot zijn er nog de banen. Want misschien is de ontslagronde bij Microsoft’s MSN wel een voorbode voor de hele beroepsgroep. En krijgt hoogleraar Emiel Krahmer gelijk met zijn voorspelling, maar zat hij er slechts een paar jaar naast. Verschillende onderzoeken uit het verleden laten zien dat de halve wereldbevolking straks zonder werk zit. De Amerikaanse oud-presidentskandiaat Andrew Yang schreef er het boek over ‘Jouw baan gaat verdwijnen en dit is de oplossing.’

Toekomstdenker Bas van de Haterd schreef erover: ‘In 2040 zijn er nog maar twee soorten werkenden: mensen in dienst van het algoritme en mensen die aan de algoritmes werken.’ Anno 2021 is het sentiment gekanteld. Inmiddels zeggen diverse onderzoekers van onder meer adviesbureau McKinsey te verwachten dat wereldwijd maar een klein percentage van de beroepen daadwerkelijk zal verdwijnen, maar dat de overgrote meerderheid te maken krijgt met kunstmatige intelligentie. Beroepen zijn immers een opstapeling van taken en een deel van die taken zal worden overgenomen door slimme computersystemen. Is dat erg? Helemaal niet. Zoals Colin van Hoek het beschrijft: dan heb jij tijd over voor nuttige taken.

Dit was deel één in een vierluik over de impact van kunstmatige intelligentie op de journalistiek. In de volgende aflevering gaan we dieper in op het onderwerp ‘de robotredacteur’.

Wat is een algoritme?

De term algoritme en kunstmatige intelligentie zijn onlosmakelijk met elkaar verbonden. Een algoritme is in feite een stappenplan met instructies voor een computer. Je kunt het zien als een recept uit een kookboek. Wil je een omelet maken? Zet een pan op het vuur, breek drie eieren, doe er een scheutje melk bij, etc. Vroeger schreven programmeurs zelf het recept uit voor de computer: ‘Als de reactie op dit bericht een scheldwoord bevat, wijs het af.’ Met kunstmatige intelligentie of beter gezegd het subgebied machine learning – lerende apparaten – schrijft de computer zelfstandig het kookboek. Dat is sneller, minder foutgevoelig en deze manier van werken kan complexere vraagstukken aan. Probeer maar eens voor een computer uit te schrijven hoe een appel eruit ziet – dikke kans dat in een oneindige reeks ‘als-dan’-vergelijkingen verzakt. Een algoritme kan heel eenvoudig zijn of onnavolgbaar complex. De laatste jaren zijn namelijk de ‘neurale netwerken’ in opkomst. Die bootsen de werking van de hersenen na en kunnen zo ingewikkelde taken op zich nemen (zoals een auto veilig op een snelweg laten rijden). Net als ons eigen gedachteproces soms lastig te verklaren is, is dit ook bij de virtuele variant het geval. Een neuraal netwerk kan zo op basis van geweldig veel factoren iemand een hypotheek toe- of afwijzen, maar hoe het algoritme op het oordeel is gekomen, is zelfs voor de programmeurs een vraag. Om die reden is ‘explainable AI’ anno 2021 een belangrijk thema: algoritmes moeten kunnen uitleggen waarom ze bepaalde aanbevelingen doen.