De leden van één van de Skepsis-werkgroepen hebben een testje gedaan om te onderzoeken of de internetzoekmachine Google zich erg laat beïnvloeden door eerder zoekgedrag. Hierover was onlangs behoorlijk wat persaandacht. Het is een onderwerp dat ook voor sceptici van belang is: creëert Google voor iedereen een eigen werkelijkheid? Ons onderzoek laat daar nog niet veel van zien. Is de media aandacht terecht?
Alweer een maand geleden verscheen er in de krant NRC Next, in de Next check om precies te zijn, een artikel over de zoekresultaten van Google. De specifieke vraag was of onze persoonlijke zoekresultaten allemaal gelijk zijn. Ofwel: krijgen wij ‘gepersonifieerde’ zoekresultaten of niet. De vraag kwam voort uit een eerder artikel in de NRC, naar aanleiding van de boek ‘The Filter Bubble: What the Internet is hiding from you’ van Eli Pariser.
Het boek gaat over hoe onze activiteiten op het internet in combinatie met het gebruik van verschillende social media ons ‘internetleven’ zouden beperken, doordat alles wat we doen op het internet steeds meer beïnvloedt welke informatie we te zien krijgen. In ons onderzoek hebben we de social media links laten liggen. We hebben ons geconcentreerd op de vraag: ‘Beïnvloedt Google onze persoonlijke zoekresultaten?’
Bij de Next check werden lezers opgeroepen een zoekslag te doen in Google op het woord ‘Egypt’. De uitslag was dat 22% van de uitslagen afwijkend was. Binnen de één van skeptische werkgroepen, was eind vorig jaar dezelfde vraag gerezen (ook op basis van het boek van Pariser). Dit was voor ons aanleiding om binnen de werkgroep zelf een experiment(je) op te zetten.
Het experiment is tweemaal uitgevoerd, de eerste keer met de volgende woordcombinatie: ‘ZOUT ZWANGERSCHAP BLOEDDRUK’. De tweede keer een zoekopdracht met gecombineerde woorden: ‘BIJBEL APPEL KLIMAAT’ en ‘ASFALT MELK KLEDING’. Het doel was om dit tevens uit te voeren vanuit verschillende browsers (Internet explorer, Firefox, Google Chrome etc.), maar daarbij is geen specifieke verdeling gemaakt. Het deelnemersaantal varieerde van 8-10.
Het experiment moest aan een aantal randvoorwaarden voldoen:
- De zoekopdracht moest op een vooraf bepaalde tijd worden uitgevoerd. Dit betekent niet dat we allemaal op de seconde nauwkeurig de zoekopdracht uitvoerden, maar het tijdsverschil werd zo wel beperkt tot zo’n 10 minuten.
- De zoekopdracht moest worden uitgevoerd thuis en/of op het werk
- Geen van de deelnemers was ingelogd tijdens de zoekopdracht
- Iedereen maakt een print van de eerste twee pagina’s
De uitslag van beide experimenten was éénduidig: er was géén groot verschil tussen de zoekresultaten. De enige verschillen die we onderkenden, waren kleine afwijkingen in de volgorde van de zoekresultaten en de ‘reclame’. Dit resultaat was in lijn met een (groter) onderzoek van de omroep BBC die in een interview met Eli Pariser eenzelfde soort onderzoek liet uitvoeren. Van over de hele wereld kregen men een ‘screendump’ van de zoekresultaten. Toen Pariser werd geconfronteerd met de uitslag was hij niet overtuigd. Hij zei:
‘Google handles different queries quite differently from each other and there are some queries that mostly seem to return similar types of results and others that you’ll see different results depending on different people’.
Inderdaad is met ons onderzoek en dat van de BBC de hypothese van Pariser niet per se ontkracht. Zelfs de BBC nuanceert wat dat betreft de waarde van de uitkomsten:
‘Of course our survey is far from scientific; the sample size is relatively small and is only based on one search term. It does not refute Eli Pariser’s hypothesis’.
Ons onderzoek was uiteraard nog vele malen kleiner en we gebruikten Nederlandse zoekwoorden. Dat laatste is natuurlijk ook een limiterende factor, aangezien Nederlands niet één van de top 10 talen is waarin websites zijn gemaakt. Het is goed dat er kritisch wordt gekeken in welke mate internetbedrijven zoals Google, invloed (zouden) kunnen uitoefenen op ons browsegedrag. Maar het is een behoorlijke claim die Pariser maakt, één waarvan men toch enige effecten zou verwachten te zien bij een dergelijke test. Misschien zal Google ooit onze wereld overnemen, maar vandaag maak ik me daar nog niet veel zorgen over.
Wjg says
Veelvuldig zoekresultaten vergelijkend blijkt wel degelijk dat google, zonder dat je daarom vraagt de weergegeven resultaten aanpast aan eerder zoekgedrag vanaf die computer. Dat is echter alleen zichtbaar indien google op basis van dat eerdere zoekgedrag denkt conclusies te kunnen trekken. Bij random gekozen willekeurige zoekwoorden zal de kans dat google op basis van je al bekende gebruikersprofiel aangepaste resultaten weergeeft statistisch niet significant zijn.
Herhaal de test maar eens voor bijvoorbeeld “uitslag”vanaf een IP adres waar een student achter zit en een IP adres waar een jonge moeder achter zit.
marcel says
Ik denk dat je hier helemaal gelijk in hebt want Google onthoud heel goed waar je geweest bent.
Google weet kennelijk ook dat ik een dagje ouder word. Want als ik “uitslag” google dan krijg ik de uitslag van “Nordic Walking”. (U weet wel, het voorstadium van de rollator…)
Stozo says
Wie denkt dat Google manipuleert, die kan dat toch proberen te bewijzen? Dàt is de Skepsis-werkgroep in ieder geval niet gelukt. En wie vindt dat het onderzoekje anders had moeten worden uitgevoerd, kan dat toch beter zelf even doen dan dat een ander die klus voor hem opknapt?
Wie stelt moet bewijzen.
Pipo
Dennis says
Niet gelukt? Bij verschillen in volgorde is een lichte manipulatie wat mij betreft weldegelijk al aangetoond. Misschien niet heel indrukwekkend in gewicht, maar we hebben het hier dan ook wel over een erg incidentele test. Dan moet je niet meteen rekenen op de hoofdprijs.
Je kunt ook verwachten dat de manipulaties erg per onderwerp zullen verschillen. Als men manipuleert, dan doet men dat met een doel, bijvoorbeeld omdat Google er voor betaald wordt. De vraag moet dan ook niet zijn “manipuleert Google alle resultaten?”, de vraag moet zijn: “Manipuleert Google sommige resultaten”… Ik ben bij zo’n kleine test als deze dan al aardig onder de indruk van die kleine verschillen in volgorde.
Tel daar bij op de afwijkingen die al plaats vinden op basis van het land van waaruit je Googled en voila: Echt eerlijk zijn de resultaten dan al lang niet meer. In ieder geval niet zoals in de begin fase, waarin je met de Google rang een soort wereldwijde score van een site kon meten.
Hier overigens een nuttige link:
http://google.com/ncr
ncr staat voor “no country redirect”. Dit voorkomt dat google zich aanpast aan de locatie waar je je bevind. Dat is niet alleen handig als je in Griekenland op vakantie bent, waar Google het nodig vindt je in Gibberish te woord te staan… Het is ook handig om een wat neutralere (of meer Amerikaanse?) set aan zoekresultaten te krijgen. Je zult zien dat uitgelogged googlen op google.com in Nederland een veel Nederlandsere set aan resultaten geeft dan uitgelogged googlen op google.com/ncr
Zoek bijvoorbeeld eens op het woord pipo, en je ziet (en snapt) het verschil.
Heimdalls Desert says
Er zijn uiteraard meer vragen te stellen en een variatie aan methoden toe te passen om dit te onderzoeken. Dat is de reden waarom we geprobeerd heb zo transparant mogelijk aan te geven wat WIJ hebben gedaan, inclusief de relativering van de resultaten. Blijft staan dat zowel ons experiment, als het grotere experiment van de BBC geen duidelijke aanwijzingen voor ‘manipulatie’ laten zien.
Ik heb voor de aardigheid zelf nog even de zoekslag ‘uitslag’ uitgevoerd, zowel op een openbare WiFi als thuis. De resultaten zijn gelijk en het derde zoekresultaat gaat over Nordic Walking. Voor het IP adres thuis op zich vreemd, omdat ik daar, gezien mijn zoekverleden (als jij gelijk hebt), iets zou verwachten over uitslagen van marathons?
Er zijn meer zaken waarop ik zou kunnen reageren, maar dan ga ik me begeven op een gebied waar ik te weinig van weet. Ik vind het niet zinvol om erover te speculeren. Boven staat wat we hebben gedaan en wat de resultaten daarvan waren.
Bert van Heerde says
Leuk onderzoek, alleen mis ik nog een paar belangrijke variabelen die het stuk niet noemt. Hieronder wat opbouwende kritiek:
1) Wat waren de instellingen voor het aantal zoekresultaten? 10, 20, 50 of 100 per pagina?
– de orde van zoekresultaten is vaak verschillend wanneer je deze instellingen aanpast.
2) Welke lokatie was ingesteld voor de zoekopdracht?
– de meest belangrijk variabele. In het menu aan de linkerkant kun je zien in welke regio Google je heeft ingedeeld. Hebben alle deelnemers binnen dezelfde regio gezocht? Dit is met name van belang voor zoekopdrachten met een geografische lokatie erin, zoals ‘bakkerij amsterdam’. Zet iedere deelnemer de lokatie op ‘Nederland’ dan is ook de rangorde van de zoekresultaten gelijk (mits de andere variabelen hier beschreven ook gelijk zijn)
3) Welke tijdsperiode was ingesteld? Altijd, vandaag, afgelopen maand?
– afhankelijk van de leeftijd van de content (lees: moment van indexatie door Google) is bepalend voor de zoekresultaten die getoond worden.
4) Welke zoekmachine is gebruikt? Google.nl, Google.com?
– Google.nl en Google.com produceren verschillende zoekresultaten.
De verschillen in rangorde zijn waarschijnlijk door één of meer van deze factoren beinvloed.
Google stuurt alleen gepersonaliseerde zoekresultaten wanneer je ingelogd bent. Dit is logisch omdat je anders steeds meer van hetzelfde krijgt en mensen dan geen mogelijkheid hebben om neutrale, inhoudelijk tegenovergestelde sites (opinies) of nieuwe sites te ontdekken. Google maakt gebruik van de G+ uit je cirkels en andere sociale media (FB,Twitter), klikgedrag (eerdere bezoeken) om de gepersonaliseerde zoekresultaten samen te stellen. Google gaat dus niemands leven ‘beheersen’. Je hebt dus zelf de keuze (controle) of je er gebruik van wilt maken door in te loggen met een Google Account.
Heimdalls Desert says
Ik had gisteravond al een reactie gegeven, maar ik geloof dat er iets is misgegaan? Probeer z.s.m. alsnog mijn reactie geplaatst te krijgen
Heimdalls Desert says
Bedankt voor de opmerkingen. Ik heb nog even gekeken in de resultaten
(ik had ze helaas niet van iedereen). Dat wat ik had, was allemaal
‘default’.
1) Dat betekent (volgens mij) 10 resultaten per pagina. Dat was in elk geval, het geval, in de mij beschikbare resultaten.
2) De regio was default, dus daar waren (lokale) afwijkingen.
3) De periode was elke periode
4) Alle mij beschikbare resultaten waren google.nl
Het was niet de bedoeling dat iemand was ingelogd, ik heb zelf nog
wel even ‘ingelogd’ gezocht. De resultaten waren gelijk, maar daar zeg
ik meteen bij dat ik het ‘bewaren van de zoekgeschiedenis’ heb
uitgeschakeld.
Je opmerkingen rechtvaardigen misschien wel een herhaling met extra
randvoorwaarden. Als we dat gaan uitvoeren kom ik hier nog op terug met
de resultaten. In elk geval bedankt voor de opmerkingen!
Renate says
Ik krijg als eerste zoekresutaat huiduitslag. Dan een pagina met sportuitslagen, vervolgens een artikel over het woord uitslag, dan weer iets over alllergie en vervolgens een pagina over Sabine Uitslag.
Bepaalde advertenties worden wel aangepast aan internetgedrag. Ook de advertenties op deze pagina’s worden vaak aangepast aan het onderwerp, hoewel daarbij niet gelet wordt op de inhoud. Je wordt hier dan ook regelmatig doodgegooid door advertenties over waarzeggers of andere flauwekul.
matthew de roode says
Ik wil al het recente onderzoek best geloven, maar kunnen jullie me dan eens uitleggen waarom ik in het “google ads”-blokje rechtsboven aan de pagina toch overdreven veel reclame tegenkom voor kruidengeneeskunde, inzichten in de toekomst, etc.?
Ik zou toch bijna in een complot gaan geloven 🙂
Dennis says
Ter info, de stelling die onderzocht is ging over zoek resultaten. Niet over ads. Niemand betwist dat de betaalde en herkenbaar getoonde advertenties aangepast zijn op het profiel van een gebruiker. De stelling ging over de zoek resultaten zelf. Als Google daarin rommelt op basis van surf gedrag, wat regelmatig beweerd wordt, dan is er ineens geen sprake meer van een neutrale zoek machine. Dat zou toch wel de moeite van het constateren waard zijn.
Maarten Koller says
Dat is juist, de advertenties hebben niet alleen met de gebruiker te maken natuurlijk, maar ook met de tekst op de pagina. Die gaat vaak over alternatieve onderwerpen –> relatief veel ‘alternatieve advertenties’.
2012/4/12 Disqus
Renate says
Inderdaad. Er wordt duidelijk niet naar de strekking van de stukjes gekeken, anders zouden er niet zo veel alternatieve advertenties staan. Nu is het vermoedelijk ook een stuk lastiger om een algoritme te ontwikkelen dat niet alleen naar trefwoorden kijkt, maar ook ziet of de strekking van een artikel positief of negatief is.
Dennis says
Ik wilde nog even de laatste vraag uit de inleiding beantwoorden. Daar wordt namelijk om een mening gevraagd: “Is de media aandacht terecht?”
Ik vind dat dit per definitie wel zo is. Of de stelling (nu al) klopt of niet, dit is een concept waar je met een beetje extrapoleren wel bij uit komt. En dan is het goed dat zo’n potentieel probleem van te voren al bekend is. Zodat mensen er op kunnen letten, of er tegen kunnen ageren.
Uiteraard dient de pers zich wel aan de feiten te houden, en moeten zij dus mogelijk over een potentieel probleem spreken, in plaats van een actueel probleem.