Weet je het al? Je wordt gevolgd, geanalyseerd, verhandeld en gebruikt. Online. Want de persoonlijke data die bedrijven als Google en Facebook over ons verzamelen, wordt ingezet om te beïnvloeden wat we doen, wat we kopen en zelfs op wie we stemmen. In zijn boek ‘De diefstal van de eeuw’ zoekt Apache-journalist Jan Walraven uit hoe dat anders kan. Zijn conclusie: onze privacy staat misschien met een half been in het graf, ze is nog niet helemaal dood en begraven.
Je hebt het misschien nog niet gemerkt – en dat is helemaal geen schande, maar we worden omsingeld door algoritmes. Het zijn formules die de enorme hoeveelheden data en informatie die online circuleren behapbaar maken. Ze scheppen orde in de chaos. Ze zorgen ervoor dat jouw Facebook-newsfeed op jouw maat gesneden wordt, ze maken de zoekresultaten van Google persoonlijk relevant en zorgen dat webshops producten aanraden die bij jou passen. Maar ze hebben ook een donker kantje. En dat is een serieus probleem.
In een wereld van big data vervullen algoritmes een onmisbare rol. Dankzij deze formules zijn we in staat om enorme hoeveelheden informatie te verwerken en structureren. In feite is een algoritme een soort van recept, een reeks instructies die tot een bepaald resultaat leiden.
Aanvankelijk moest een persoon die instructies schrijven. Ondertussen staat de wetenschap een hele stap verder. Met de komst van ‘machine learning’ hoeft het algoritme niet meer door een mens geprogrammeerd te worden, maar leert het zichzelf om tot de gewenste output te komen. Het algoritme wordt gevoed met bepaalde patronen en leert vervolgens deze patronen te herkennen in gigantische datasets. Ofwel gaat het zelf op zoek naar patronen in grote bergen gedigitaliseerde informatie.
“Amerikaanse onderzoekers ontwikkelden een algoritme dat via het gelaat redelijk goed iemands geaardheid kan voorspellen.”
Amerikaanse onderzoekers ontwikkelden bijvoorbeeld een algoritme dat via het gelaat redelijk goed kan voorspellen wat iemands geaardheid is. Om het algoritme dit kunstje aan te leren, gaven de onderzoekers het algoritme een uitgebreide dataset met daarin foto’s van gezichten vergezeld van de geaardheid van de persoon in kwestie. Aan de hand van die informatie ging het algoritme vervolgens zoeken naar patronen in de gezichten, die een indicatie over de geaardheid kunnen geven. Wanneer het getrainde algoritme vervolgens een nieuw gezicht voorgeschoteld krijgt, is het in staat een voorspelling maken over de waarschijnlijke geaardheid van die persoon. En die voorspelling is verbazend accuraat. De onderzoekers stonden er zelf van te kijken.
Tegelijk toont dit voorbeeld aan dat een algoritme in grote mate afhankelijk is van de informatie waarmee het getraind wordt. De data bepalen of het algoritme nauwkeurige voorspellingen kan maken. Mocht het algoritme getraind worden met foute informatie over de geaardheid van de getoonde personen, dan zou het uiteindelijk niet in staat zijn om accurate voorspellingen te maken over de geaardheid van personen.
Datakwaliteit
De kwaliteit van de data waarop algoritmes worden losgelaten is dus van cruciaal belang. In een chaotische digitale wereld die steeds meer beroep doet op de ordenende en voorspellende kwaliteiten van algoritmes, dreigen bepaalde personen in een verkeerd vakje terecht te komen door vervuilde, foute of bevooroordeelde data. Nu we het oordeel van algoritmes steeds meer vertrouwen en als objectief beschouwen, moeten we ons bewust worden van de aannames waarop zo’n systeem gebouwd is. Doen we dat niet, dan lopen we het risico ons vertrouwen te stellen in bevooroordeelde algoritmes. In de VS kunnen ze erover meespreken.
Uit onderzoek van de Amerikaanse onderzoeksjournalisten van ProPublica bleek namelijk dat Amerikaanse rechters steunen op wat je niet anders dan racistische software kan noemen. Die software wordt gebruikt om recidive te voorspellen. Verdachten krijgen een score tussen 1 en 10 toegewezen, met 1 als kleinste kans op het opnieuw plegen van een strafbaar feit. Op welke informatie dat oordeel geveld wordt, is bedrijfsgeheim. Toch nemen rechters die scores mee bij het bepalen van de straf van een veroordeelde.
“Het probleem van dit soort misdaadvoorspellende algoritmes ligt bij de data waarmee ze getraind worden.”
ProPublica stelde echter vast dat het algoritme ongelofelijk slecht was in het voorspellen van recidive: slechts een vijfde van de mensen die als potentiële recidivist werden geoormerkt hadden later ook effectief opnieuw strafbare feiten gepleegd. De journalisten ontdekten bovendien een ingebakken vooroordeel tegenover zwarte Amerikanen. Zij werden namelijk tweemaal zo vaak valselijk gecatalogeerd als potentiële recidivist én blanke Amerikanen werden vaker foutief in de lage risicogroep ondergebracht dan hun zwarte landgenoten. Hoe kon dit gebeuren?
Het probleem van dit soort misdaadvoorspellende algoritmes ligt bij de data waarmee ze getraind worden. Ze worden namelijk gevoed met informatie die de politie zelf verzamelde over allerhande misdaden, en gaan dan op zoek naar patronen in deze data. Maar deze data zijn allesbehalve objectief. Agenten patrouilleren bijvoorbeeld veel vaker in Afro-Amerikaanse of arme buurten. Dit betekent dat de mensen die er wonen vaker in de politiegegevens opduiken. Misdaden die gepleegd worden in de buurten waar de politie vaker patrouilleert, hebben meer kans om in de databases op te duiken, net omdat er meer patrouilles zijn. Als je vervolgens een algoritme laat zoeken naar patronen en leert om aan de hand daarvan misdaad te voorspellen, zullen diezelfde wijken veel vaker opduiken in de voorspellingen.
En als agenten het algoritme ook effectief gebruiken om op basis van de voorspellingen opnieuw in dezelfde wijken intensiever te patrouilleren, zullen ze weer meer misdaden registreren in die wijken. De voorspelling wordt bevestigd, en creëert nieuwe informatie die het algoritme kan meenemen bij een volgende voorspelling. Die voorspellingen worden op die manier steeds meer vooringenomen en het wordt ontzettend moeilijk om die vicieuze cirkel te doorbreken.
Vooroordelen versterkt
Data weerspiegelen niet zozeer de volledige realiteit, maar wel een bepaalde visie op de realiteit. Als je de realiteit meet, dan sluipen er potentieel ongewenste vooroordelen, stereotiepen of bepaalde ongelijkheden in de data. Laat je er vervolgens een zelflerend algoritme op los, dan zal het deze vooroordelen en ongelijkheden enkel herhalen, en potentieel versterken.
Een voorbeeld uit de journalistiek maakt één en ander nog duidelijker. Onderzoekers van de universiteit van Boston toonden namelijk aan dat er in nieuwsartikels wel degelijk sprake is van genderstereotypering. Ze lieten een zelflerend algoritme los op duizenden nieuwsartikels, goed voor drie miljoen woorden. Het algoritme rangschikte woorden op basis van gender en geslacht. Daaruit bleek dat beroepen als verpleger, kinderoppas, bibliothecaris, receptionist of kapper veel vaker als vrouwelijk werden gecatalogiseerd. Beroepen als computerprogrammeur of architect daarentegen werden dan weer als mannelijker gezien door het algoritme.
“We beschouwen technologie en de big data waarvan ze gebruikmaken vaak als neutraal en objectief.”
Hoewel de artikels door professionele journalisten geschreven zijn, bleken er wel stereotiepe, maar blijkbaar wijdverspreide beelden over man en vrouw in hun teksten geslopen. Het algoritme zag die voorstellingen van mannen en vrouwen als de enige echte waarheid. De onderzoekers hadden een seksistisch algoritme voor zich.
Stel nu dat dit algoritme gebruikt wordt om zoekresultaten te rangschikken. Als ik als journalist in Google of een andere zoekmachine naar ‘computerwetenschapper’ zoek, dan zal het seksistisch algoritme – dat er van overtuigd is dat computerwetenschapper een mannelijk beroep is, beslissen om de vrouwelijke computerwetenschappers niet vooraan te plaatsen in de zoekresultaten. De kans is dus groot dat ik de wetenschapper die bovenaan de zoekresultaten staat opbel, in dit geval een man. In het artikel dat ik vervolgens schrijf komt opnieuw een mannelijke computerwetenschapper aan het woord. Het artikel bevestigt dus opnieuw het vooroordeel dat computerwetenschapper een mannelijk beroep is. Enzovoort.
Dit voorbeeld geldt als waarschuwing. We beschouwen technologie en de big data waarvan ze gebruikmaken vaak als neutraal en objectief. We krijgen namelijk enkel de output van een algoritme te zien. Welke data, en welke veronderstellingen, ongelijkheden en vooroordelen erachter schuilgaan, krijgen we niet te zien. Hoe is het getraind? Aan welke informatie geeft het voorrang? We zien het niet, en we stellen ons de vraag niet. Dat doen we beter wel. Want als we er geen aandacht aan besteden, lopen we het risico dat technologie onze ingebakken maatschappelijke stereotypen en vooroordelen verder uitvergroot. En daar willen we toch niet naartoe? De strijd tegen dat racisme, seksisme en andere soorten achterhaalde maatschappijvisies is zo al moeilijk genoeg.
Schrijf je reactie