Hieronder staat de documentaire ‘The Joy of Stats’. Omdat statistiek belangrijk is en je er best van kan genieten.
Met dank aan Jan Verhoeven voor de tip.
Sinds enige tijd schrijft Victor Lamme, hoogleraar Cognitieve Neurowetenschap aan de Universiteit van Amsterdam, columns in de krant nrc.next. Op 16 maart publiceerde hij er een met de titel ‘De pedoscan‘. Die is gewijd aan het onderzoek van Jorge Ponseti waarin die bekijkt of je met hersenscans onderscheid kunt maken tussen pedofielen en ‘normale’ mensen. Opmerkelijke conclusie van dat onderzoek is dat dat vrij precies mogelijk lijkt te zijn. Ponseti ontwikkelde een test waarin proefpersonen werden blootgesteld aan plaatjes van naakte volwassenen en kinderen. En door te kijken hoe verschillend de scans eruit zien, kan met een hoop rekenwerk ‘bepaald’ worden of iemand pedofiel dan wel ‘normaal’ is. Maar dit soort rekenpartijen op basis van meetgegevens hebben toch altijd te maken met marges, fout-positieven en dat soort statistische kanttekeningen? Hoe zit het daar mee? Victor Lamme trekt in ieder geval niet de goede conclusies uit het gecijfer. Een 100 procent betrouwbare pedoscan ligt nog niet om de hoek.
Bij zo’n beetje elke test die twee uitslagen geeft, positief of negatief, heb je naast de correcte (positieve en negatieve) uitslagen ook fout-negatieve en fout-positieve uitslagen. Een fout-negatieve uitslag wil zeggen dat je test de eigenschap niet aanwijst, terwijl die er in werkelijkheid wel is. Een fout-positieve uitslag is net andersom: de eigenschap wordt ten onrechte aangetoond door de test.
Nu wil je graag dat een test zo weinig mogelijk fout-negatieve resultaten geeft, dat heb je een hoge sensitiviteit, maar ook zo weinig mogelijk fout-positieve, een hoge specificiteit. Meestal is het lastig om zowel de sensitiviteit als de specificiteit heel hoog te krijgen. Vooral in juridische aangelegenheden is een hoge specificiteit van belang, je wil immers niet mensen ten onrechte beschuldigen.
Hoe betrouwbaar is de ‘pedoscan’?
De resultaten van Ponseti zijn zo mooi, omdat zijn test de hersenscans van de 32 ‘normale’ proefpersonen allemaal als ‘normaal’ herkende, een specificiteit van 100 procent! Op de sensitiveit moet dan wel wat ingeleverd worden, want van de 24 pedofielen, werden er 3 niet juist geïdentificeerd. De sensitiviteit is dus 21/24 = 88 procent, afgerond. Lamme legt uit waarom het zo belangrijk is, dat het niet net andersom is:
Pedofilie is gelukkig zeldzaam. Precieze getallen zijn er niet, schattingen lopen uiteen van 0,1 procent tot 4 procent. Laten we uitgaan van 1 procent. Als je dan 1.000 mannen scant zijn er 10 pedofiel. Stel nu eens dat de specificiteit 88 procent was, en de sensitiviteit 100 procent (dus dat er nooit een pedofiel wordt gemist). Dan zou je alle 10 pedofielen eruit vissen, maar tegelijk ook 120 mannen ten onrechte beschuldigen (12 procent van die 1.000). Met de door Ponseti behaalde specificiteit van 100 procent beschuldig je nooit een man ten onrechte, maar haal je wel 9 van de 10 pedofielen eruit. Tot zover de wiskunde.
Tsja, tot zover gaat misschien de wiskunde van Victor Lamme. En dat is wel een beetje gênant, want het geeft een volstrekt verkeerd beeld. De specificiteit van de test van Ponseti is de uitkomst van een steekproef en is hooguit de beste schatting van de ‘echte’ specificiteit. Je kunt niet uit het feit dat geen van de 32 gezonde proefpersonen als pedofiel word aangewezen, afleiden dat de specificiteit precies 100 procent is.
Het is eenvoudig in te zien dat je net zo goed kunt stellen dat die specificiteit bijvoorbeeld maar 95 procent is (één op twintig is dan fout-positief). Ook dan is de kans behoorlijk groot dat je de 32 mannen in het goede vakje plaatst. Die kans is gelijk aan het niet gooien van ’20’ in 32 beurten met een dobbelsteen met 20 vlakken: ongeveer 19 procent (0,95 tot de macht 32). Een kleine kanttekening moet ik hierbij wel maken, je gaat er dan van uit dat er wel een zekere spreiding in de gemeten waarden is. Maar dat blijkt wel uit het vervolg.
Wil je preciezer berekenen wat die specificiteit voor waarden kan hebben, kun je een van de vele tools op Internet gebruiken. Als je de steekproefresultaten invoert, kom je uit op een 95 procent betrouwbaarheidsinterval van 87 tot 100 procent. Dat is even wat anders dan te stellen dat Ponseti’s test geen fout-positieven kan opleveren! Er is zelfs nog een kans van één op twintig dat de specificiteit in werkelijkheid lager is dan 87 procent. [update: deze tools blijken niet zo precies in dit geval. De echte ondergrens is 91 procent. Zie de commentaren.]
Het rekenwerk van Ponseti
De valse zekerheid van het abstracte gegoochel met getallen wordt ook wat duidelijker als je bekijkt hoe die test van Ponsetti nou eigenlijk in elkaar steekt. Het artikel Assessment of Pedophilia Using Hemodynamic Brain Response to Sexual Stimuli is niet voor iedereen toegankelijk, maar ik kan er wel het een en ander over vertellen. In het onderzoek werden aan proefpersonen vier soorten blote plaatjes getoond van vrouwen, meisjes, mannen en jongens. Bij elke vertoning van een afbeelding werden fMRI-scans gemaakt. Dat levert plaatjes als hierboven op. Deze plaatjes, in feite een hele berg getallen, worden omgezet in een waarde die aan moet geven hoe opgewonden de proefpersoon is. Dit kan al op heel veel verschillende manieren, die je met een ander soort meting (die ook onnauwkeurigheden heeft) moet toetsen. Vervolgens worden er per proefpersoon twee uitkomstwaarden berekend, namelijk het verschil in opwinding bij het zien van vrouwen ten opzichte van meisjes en het verschil tussen het zien van mannen en jongens. Met die waarden kun je alle proefpersonen in een grafiekje zetten.
De test die Ponseti nu eigenlijk heeft bedacht, bestaat voor het belangrijkste deel in het bepalen van een verdeling van het vlak van de grafiek in twee delen. De verdeling moet zodanig zijn dat in het ‘goede’ stuk alle ‘normale’ personen vallen en in het ‘foute’ gebied zoveel mogelijk pedofielen.
In het plaatje hiernaast is dat duidelijk gemaakt. De rondjes zijn de ‘normale’ mannen die meededen. Zij vallen allemaal in het goede, witte, gebied. Er zijn een paar pedofielen, de driehoekjes, die er echter ook in vallen. Dat zijn de fout-negatieven.
Je kunt (en moet) je afvragen of deze verdeling niet heel erg afgestemd is op deze 56 deelnemers aan het onderzoek, of andere verdelingen niet net zo goed zouden zijn. Dat doen de onderzoekers gelukkig ook wel een beetje en ze deden een zogenaamde ‘leave-one-out crossvalidation‘. Je laat dan telkens één persoon uit de dataset, doet opnieuw de verschillende splitsingen in zwart en wit in de grafiek en kijkt of de weggelaten persoon in het goede vlak zou vallen. De beste methode bleek deze simpele lineaire verdeling te zijn.
Het is dus ook helemaal niet zo dat er van tevoren een test bedacht is, die in het onderzoek zo bleek uit te pakken dat die een specificiteit van 100 procent geeft. Nee, de test is achteraf zo afgesteld dat die in ieder geval die specificiteit geeft. Het bijzondere is alleen dat je dan nog zo’n hoge sensitiviteit overhoudt.
Mooie oplossing, of niet?
Allemaal leuk en aardig, maar waar zijn we nu eigenlijk helemaal mee bezig? Is het resultaat wel generaliseerbaar naar de gehele populatie? Die 24 pedofielen zijn misschien wel helemaal niet representatief voor alle pedofielen, die we zouden willen testen. Deze waren namelijk allemaal al ‘uit de kast gekomen’ en zaten in programma’s om om te leren gaan met hun pedofilie.
Dat is één probleem, maar er zijn ook fundamentele twijfels aan de waarde van dit rekenwerk op basis van fMRI-scans. Bert Keizer stelt in een stuk in Trouw zeer terecht de vraag of we wel kúnnen weten wat we meten met zo’n hersenscan en wat voor conclusies we mogen trekken op basis daarvan:
Stel dat een pedofiel van wie we het niet vermoeden, maar die voor deze test gescreend wordt, bij het zien van pedoplaatjes helemaal geen plezier beleeft, maar zich schaamt? Precies dezelfde schaamte die, plaatsvervangend, wordt gevoeld door de hetero die ernaar kijkt. Wat zeggen we als Robert M. brandschoon blijkt op zo’n scan? Dat hij eigenlijk niks gedaan heeft? De drogreden blijft dat je op basis van een scan precies weet wat er door iemand heen gaat én dat je op grond daarvan gedrag kunt voorspellen.
Victor Lamme geeft in zijn column niet alleen een verkeerde weergave van de betrouwbaarheid van de ‘pedoscan’ maar verwacht er ook veel te veel van:
Was het Amsterdamse drama dat Robert M. heeft aangericht hiermee voorkomen? Het lijkt me dat een pedofiel niet eens gaat solliciteren als hij weet dat er van zijn brein een dergelijke scan wordt gemaakt. Een crèche kan zich mooi onderscheiden in de nu zo moeilijke markt voor kinderopvang: ‘onze medewerkers zijn pedoscanproof!’
Het kan best zo zijn dat pedofielen minder zullen solliciteren naar functies in de kinderopvang als dit soort detectie ingang vindt. Maar dat maakt de kans alleen maar groter dat iemand die wel solliciteert en positief uit de test komt, geen pedofiel is. En de term ‘pedoscanproof’ wekt, bij mij in ieder geval, eerder de suggestie dat er geen fout-negatieven zouden voorkomen. En die zijn er dus juist wel met de test van Ponseti. Ook is er onderzoek dat aantoont dat soortgelijke tests die gebruikt worden voor leugendetectie, te foppen zijn.
De valse zekerheid van dit soort testen zal hopelijk niet zo gaan uitpakken, dat we begeleiders in de kinderopvang die ‘slagen’ voor de test blindelings gaan vertrouwen. En dat we zeer verstandige maatregelen, zoals minstens twee begeleiders tegelijkertijd op een groep, overboord gaan gooien, omdat je dan kunt bezuinigen in deze ‘nu zo moeilijke markt voor kinderopvang‘.
Een paar andere artikelen over het onderzoek van Ponseti:
Een jaar geleden was er veel media-aandacht voor een uiterst merkwaardig onderzoeksresultaat van de bekende psycholoog Daryl Bem: beslissingen van mensen kunnen worden beïnvloed door gebeurtenissen uit de toekomst. Dat schreef de emeritus hoogleraar van de bekende Amerikaanse Cornell Universiteit in een artikel in het gezaghebbende tijdschrift Journal of Personality and Social Psychology (nr. 100, pp. 407-425). Al snel werd duidelijk dat de resultaten van Bem niet konden kloppen. Andere onderzoekers probeerden de resultaten van Bem te herhalen, zonder succes. Daarover schreven we eerder op Kloptdatwel. Een artikel in het blad Skeptical Inquirer van CSI (the Committee for Scientific Investigation), de Amerikaanse zusterorganisatie van Skepsis, ontleedde de denk- en onderzoeksfouten van Daryl Bem. Andere wetenschappers kwamen met forse kritiek, zo blijkt o.a. uit dit artikel in de krant New York Times. Opnieuw is er een onderzoek dat de resultaten van Bem onderuithaalt. Bem weigert de bewijzen te accepteren en ook het Journal of Personality and Social Psychology weigert om het artikel van Bem te corrigeren. De redactie wilde het onderzoek dat de resultaten van Bem corrigeert niet publiceren.
Het was geen toeval dat het artikel van Daryl Bem een jaar geleden leidde tot wereldwijde aandacht. Het had alle ingrediënten voor gegarandeerd mediasucces: een pakkende titel (‘feeling the future’), een bekende professor van een topuniversiteit, een mysterieus onderzoeksresultaat dat het bestaan van ‘psi’ lijkt aan te tonen en de ‘magical ingredient’ sex. In één van in totaal negen experimenten moesten de deelnemers raden achter welk gordijntje op hun computerscherm zich een plaatje zou bevinden. Pas na het maken van een keuze voor een bepaald gordijntje zette de computer willekeurig een plaatje achter één van de twee gordijntjes. Als de computer een erotisch plaatje selecteerde (door Bem aangeduid als ‘explicit reinforcement for correct ‘precognitive’ guesses’) dan raadden de kandidaten het correcte gordijntje veel vaker dan wat als toeval verklaarbaar is. Aldus Bem. Maar Bems experiment zat verkeerd in elkaar en kon deze resultaten helemaal niet onderbouwen, betoogt een artikel in het blad Skeptical Inquirer. Daarvoor deugden de opzet (methodologie) van het experiment en de gebruikte statistische methoden gewoon niet. Dat bezwaar gold volgens de Skeptical Inquierer ook voor de andere 8 experimenten die Bem beschreef.
Nu zijn 3 van de 9 experimenten van Daryl Bem exact herhaald door de skeptische onderzoekers Stuart Ritchie en Richard Wiseman. Volgens deze onderzoekers leverden de experimenten geen enkele aanwijzing op voor het bestaan van precognitie. Het betreft geheugentesten: het in de toekomst oefenen van een verzameling woorden zou, geholpen door een ‘stimulus seeking statement’, volgens Bem een positieve invloed hebben op de herinnering aan deze woorden in het heden. Als het waar zou zijn zou dit een zegen zijn voor iedere student. Ritchie en Wiseman vonden echter hiervoor geen enkele aanwijzing. De abstract van hun artikel luidt:
‘Nine recently reported parapsychological experiments appear to support the existence of precognition. We describe three pre-registered independent attempts to exactly replicate one of these experiments, ‘retroactive facilitation of recall’, which examines whether performance on a memory test can be influenced by a post-test exercise. All three replication attempts failed to produce significant effects’
Ritchie en Wiseman zijn van mening dat Daryl Bems onderzoek slechts ‘experimentele artefacten’ (schijnresultaten) heeft opgeleverd.
Bem stelt in een reactie op het artikel van Ritchie en Wiseman dat het prematuur is om zijn onderzoeksresultaten te verwerpen. Hij stelt dat meer onderzoek nodig is. Verder verdedigt hij zich uiterst zwak door de bal op de man te spelen. Bem suggereert dat de resultaten van Ritchie en Wiseman mede het gevolg zijn van hun skeptische houding: ‘Ritchie, Wiseman, and French are well known as psi skeptics, whereas I and the investigators of the two successful replications are at least neutral with respect to the existence of psi’. Bem verwijst daarmee in één adem ook naar het kritische stuk dat de skepticus Chris French op 15 maart 2012 schreef in de Engelse krant The Guardian (‘Precognition studies and the curse of the failed replications’). Met deze verdediging maakt Bem zich uiterst verdacht. Bem introduceert hiermee zonder spoor van bewijs een nieuwe variabele die zijn onderzoeksresultaten zou kunnen verklaren: de welwillende of neutrale onderzoeker. Hiermee schendt Bem een aantal belangrijke wetenschappelijke uitgangspunten. Hij noemt een verklarende factor voor zijn vreemde onderzoeksresultaten die hij in zijn artikel niet heeft benoemd. Ook stelt hij de herhaalbaarheid en dus de objectiviteit van wetenschappelijk onderzoek ter discussie.
Het meest treurigmakend is misschien niet eens de reactie van Daryl Bem. Echt verdrietig is dat Ritchie en Wiseman hun artikel zonder succes aanboden aan het Journal of Personality and Social Psychology, het tijdschrift dat Bem eerder ruim baan gaf voor zijn vreemde onderzoeksresultaten. Ook twee andere toptijdschriften weigerden het artikel van de twee skeptische onderzoekers. Zijn deze tijdschriften meer geïnteresseerd in pakkende nieuwtjes dan in wetenschappelijke vooruitgang? Niet echt bemoedigend voor onderzoekers die vreemde resultaten opnieuw tegen het licht willen houden. En daarmee niet echt bevorderlijk voor het zelfreinigend vermogen van de wetenschap. Uiteindelijk bood het internet-tijdschrijft PlosOne ruimte voor het artikel van Ritchie en Wiseman.
Met dank aan dit artikel op de website whyevolutionistrue.
Een recent onderzoek kwam met een opmerkelijke conclusie: er zou een verband zijn tussen de emotionele waardering van woorden en de positie van de letters van die woorden op het QWERTY-toetsenbord. Kort samengevat: hoe meer letters van een woord aan de rechterkant van het toetsenbord zijn te vinden des te positiever wordt het woord gezien. En niet alleen in het Engels, maar ook in het Spaans en Nederlands! Als het in drie talen optreedt, kan het haast geen toeval meer zijn, toch? Of missen de onderzoekers wat alternatieve verklaringen?
De onderzoekers Kyle Jasmin en Daniel Casasanto publiceerden in Psychonomic Bulletin & Review een artikel getiteld The QWERTY Effect: How typing shapes the meanings of words (vrij toegankelijk). Het resultaat is opvallend en het verwondert me niet dat het op allerlei websites met (populair) wetenschappelijk nieuws werd vermeld (Nederlandse sites: scientias, KIJK).
Wired sprak ook met een van de auteurs, Jasmin, en dat artikel lijkt voor veel andere publicaties weer de belangrijkste bron. Veel van de commentaren bij het Wired-artikel zijn sceptisch: gaat het hier niet om een toevallig resultaat, datafitting of iets dergelijks? Jasmin brengt daar in een commentaar tegen in dat dat bijna uitgesloten is, omdat het in alle drie de onderzochte talen optreedt:
The trend is there, demonstrated in 5 large corpora of words, which included 3 different languages. The balance of right-side and left-side letters in a word was a strong predictor of the word’s emotional valence. For every letter you add that tips the scale to the right, you get, on average, about a 4% boost in positive valence. With respect to ‘proven’ or ‘not proven’, we predicted an effect and replicated it several times — it is statistically very unlikely to be a fluke.
Wat is het verband nu precies?
De onderzoekers gebruikten een standaard Engels woordenlijst die is verrijkt met emotionele waarderingen op een 9-puntsschaal (9 heel positief, 1 heel negatief). Deze ANEW lijst heeft een Spaans (SPANEW) en Nederlands equivalent (DANEW), die gebaseerd zijn op vertalingen van de Engelse lijst en opnieuw gewaardeerd door Spaans- en Nederlandstaligen. Vervolgens definiëren de onderzoekers een score per woord die aangeeft hoe de verhouding is tussen de ‘linkse’ en ‘rechtse’ letters op het QWERTY-toetsenbord. Ze noemen die RSA (right-side advantage) en je berekent die door het totaal aantal rechtse letters (y, u, i, o, p, h, j, k, l, n, m) te verminderen met het totaal aantal linkse letters (q, w, e, r, t, a, s, d, f, g, z, x, c, y, b). Voor een woord als ‘aangenaam’ wordt de RSA dan -1-1+1-1-1+1-1-1+1 = -3.
Nu kun je kijken naar het verband tussen de RSA en de emotionele score, waarvoor ik verder de Engelse term ‘valence’ zal gebruiken zoals dat ook in het artikel gebeurt. Het volgende plaatje (uit het supplement bij het artikel, Appendix C ) laat zien wat het verband is:
De helling van de lijn geeft het verband aan dat Jasmin in zijn quote geeft: gemiddeld geeft een stijging van een punt op de RSA-schaal een verhoging van 4% in valence. Deze grafiek is wel een beetje raar: de bollen geven het gewogen gemiddelde van de valence aan bij elke RSA. Waarom ze nu eerst dat gewogen gemiddelde bepalen en dan een regressie uitvoeren, ontgaat me een beetje. In een eerdere publicatie deden ze dat niet en zagen de plaatjes er wat chaotischer uit, maar in feite bevatten ze dezelfde informatie. Voor velen zal nu het verband er veel minder overtuigend uit zien.
De verklaring van Jasmin en Casasanto
De auteurs beweren dat het typen van ‘linkse’ letters lastiger is. Aan de linkerzijde heb je immers meer letters om uit te kiezen, wat meer moeite kost. En woorden die veel ‘linkse’ letters bevatten en aldus lastiger te typen zijn, zouden daarom ook minder positief gewaardeerd worden. In de woorden van Jasmin:
As we filter language, hundreds or thousands of words, through our fingers, we seem to be connecting the meanings of the words with the physical way they’re typed on the keyboard. If it’s easy, it tends to lend a positive meaning. If it’s harder, it can go the other way.
Natuurlijk stellen de onderzoekers dat het effect beperkt is, de betekenis van de woorden is nog altijd de belangrijkste factor die de valence bepaalt. Het klinkt nogal vergezocht, maar Jasmin stelt dat ook bekend is dat de manier waarop woorden worden uitgesproken een dergelijk invloed heeft op de betekenis van die woorden.
Is het niet gewoon toeval?
Het verband is sowieso niet al te sterk (de lijn in de grafiek loopt niet zo steil) en het zou aan de toevallige selectie van woorden in ANEW kunnen liggen (het gaat om 1043 woorden). Mark Liberman onderzocht het ook in een blog op language log. Hij deed de analyse zelf voor de ANEW en DANEW lijsten apart en dat leverde vergelijkbare grafieken op, maar het effect is dan niet significant. Dat wordt het blijkbaar pas als je de drie lijsten bij elkaar gooit op één hoop. Liberman gooide ook drie keer de koppeling tussen RSA en valence willekeurig door elkaar (met de ANEW lijst) om te kijken of het toevallig kan optreden. Hij vond één keer ongeveer hetzelfde positieve verband, één keer eerder een negatief effect en één keer geen relatie. Het zou op die gronden alleen al toeval kunnen zijn.
[update 19-3-2012] Er is intussen een discussie tussen Liberman en de auteurs gaande over onder andere de significantie. Casasanto en Jasmin hebben een officiële reactie op de kritiek op Language Log geschreven, die ook een aantal zaken in het artikel verduidelijkt: The Robustness of the QWERTY Effect.
Wat zou je verder kunnen analyseren?
Er zijn nog wel andere zaken die je zou moeten onderzoeken in mijn ogen. Als je naar de grafiek kijkt, lijkt het dat de helling van de grafiek voor een belangrijk deel bepaald wordt door de uitschieters. Beperk je de RSA-scores even tot het interval [-6,4] dan lijkt het me dat er nauwelijks een helling over zou blijven, dus geen positief verband. Het kan goed zijn dat een handjevol woorden relatief veel invloed heeft. Dit zijn dan woorden die redelijk lang zijn, anders kan er geen groot overschot aan linkse of rechtse letters zijn. Die langere woorden veranderen vaak in vertaling van Engels naar Nederlands of Spaans ook lang niet zo veel als kortere woorden, bijvoorbeeld “aggressive – agressief – agresivo” met RSA scores resp. -8,-7 en -4. De woordenlijsten zijn in mijn ogen dan ook niet zomaar als onafhankelijk te beschouwen.
De onderzoekers laten de koppeling tussen de vertaalde woorden helemaal los en hiermee gooien ze informatie weg (zonde!). Je zou die koppeling ook goed kunnen gebruiken om de hypothese te falsifiëren. Je verwacht namelijk dat de woorden in vertaling wel ongeveer vergelijkbaar blijven in valence, maar de RSA kan nogal verschillen. Als de hypothese klopt dat de RSA verband houdt met valence, zou je dat eigenlijk moeten terugzien bij die vertalingen. Als de vertaling een lagere RSA heeft, zou je ook verwachten dat het een lagere valence heeft. Dat zie je natuurlijk niet door naar enkele voorbeelden te kijken, maar het zou een zichtbaar verband moeten zijn als je dat voor alle woorden uit de ANEW lijst doet.
Een voorbeeldje dat aan de verwachting voldoet is “vomit”, dat heeft een RSA van +1 en een valence van 2,06. De Nederlandse vertaling “braaksel” heeft RSA -4 en valence 1,86. Maar “achievement”, met RSA -3 en valence 7,89, wordt “prestatie”, met RSA -5 en valence 8,17 en gaat dus net de andere kant op.
Het is een fluitje van cent om dit te doen voor alle woorden in de ANEW, DANEW en SPANEW lijsten. Maar toen ik de onderzoekers dit per e-mail voorstelde, kreeg ik een erg lauwe reactie. Ook op mijn vraag naar hun mening over de analyses van het language log reageerde Daniel Casasanto onverwacht. De analyses van Liberman zouden ‘nonsensical’ zijn, zonder overigens aan te geven waarom. Op dat moment wist ik niet eens dat Liberman een vooraanstaand hoogleraar is, maar was gewoon erg overtuigd van zijn argumenten in zijn blog en de commentaren erop.
Ik zou de analyse naar de invloed van de mogelijke afhankelijkheid tussen de lijsten graag zelf even doen, maar ik vond ze alleen gealfabetiseerd en de koppeling tussen origineel en vertaling zou je zelf moeten reconstrueren. Het is wel te doen, maar het kost behoorlijk wat tijd. Ik verwacht eerlijk gezegd ook niet dat het verband er uit zal komen, dus die klus ga ik vooralsnog niet op me nemen.
[update 19-3-2012] Uit de nadere toelichting van Casanato en Jasmin maak ik op dat ze de mogelijke afhankelijkheid tussen de verschillende vertalingen hebben proberen te ondervangen door in de regressie de valence van de vertalingen als ‘herhaalde waarnemingen’ in te voeren. Ik vraag me af of dit juist is, want dan ga er a-priori van uit dat de werkelijke valence in elke taal hetzelfde zou moeten zijn en dat is duidelijk niet het geval. Je zou het bij een correcte vertaling wel verwachten, maar zo simpel is het niet: als je een woord als ‘execution’ in het Nederlands vertaald als ‘uitvoering’ mis je de negatieve connotatie van ‘terechtstelling’.
Het nevenbewijs van de onderzoekers
Naast het hoofdexperiment keken de onderzoekers naar twee andere lijstjes (dat maakt samen met de drie eerder genoemde lijsten het totaal van vijf uit de quote van Jasmin). Ten eerste analyseerden ze een woordenlijst met woorden die na de ontwikkeling van het QWERTY-toetsenbord zijn ontstaan (dus na 1873). Het idee daarachter is dat je dan zou kunnen zien of met de vastlegging van de toetsenindeling ook de ontwikkeling van nieuwe woorden beïnvloed zou worden. En weer bleek hetzelfde verband.
Nu is het gebruikte lijstje van 63 woorden niet op een heel erg duidelijke manier samengesteld (zie het supplement voor de hele lijst) en overtuigt mij daarom niet echt. Veel woorden zijn populair internetjargon, niet echt ‘common knowledge’ en veel zijn ook min of meer dubbel.
Ten slotte werd er onderzocht hoe het met de valence van fantasiewoorden zit. Met een algoritme werd een lijstje woorden samengesteld en via Mechanical Turk op Internet aan proefpersonen voorgelegd. Weer eenzelfde verband. Ook dit experiment stelt in mijn ogen niet veel voor. Door de vorm van de gebruikte woorden is de lijst niet echt vergelijkbaar met een lijst ‘echte’ woorden (de variatie in woordlengte is bijvoorbeeld heel beperkt). En het zijn dan wel niet bestaande Engelse woorden, sommige komen bijvoorbeeld weer wel in het Nederlands voor. Belangrijker is echter de vraag of het gevoel bij een niet-bestaand woord wel vergeleken kan worden met het gevoel van een woord waarvan de betekenis bekend verondersteld mag worden.
Kortom: als er al sprake is van een QWERTY-effect, dan overtuigt deze studie mij daar niet van. Misschien dat de onderzoekers in een vervolg meteen ook even de invloed van de kleur van de tekst mee kunnen nemen, of het lettertype?
Afgelopen weken hebben we veel berichten gehad over UFO’s. Je zou bijna vergeten dat er ook nieuws is over serieus onderzoek naar buitenaardse beschavingen. Vorig jaar werden de radio-antennes van het SETI-project (SETI: Search for Extraterrestrial Intelligence) wegens geldgebrek stilgelegd. Onlangs was er weer voldoende geld om de telescopen aan te zetten.
Hoewel er mensen zijn die beweren dat buitenaardse wezens allang met hun UFO’s onze planeet bezoeken, vinden de meeste mensen dat de geleverde ‘bewijzen’ zo’n lage kwaliteit hebben dat ze niet serieus genomen kunnen worden. Er is kortom geen serieuze aanwijzing dat buitenaardsen ooit onze aarde hebben bezocht. Een wetenschappelijke benadering in de zoektocht naar tekenen van buitenaardse beschavingen zou meer mensen overtuigen. Daarvoor dient het SETI-project. SETI staat voor Search for Extraterrestrial Intelligence (ofwel: Zoektocht naar Buitenaardse Intelligentie). Het SETI-onderzoek wordt uitgevoerd met telescopen die de hemel afspeuren naar buitenaardse radiosignalen. De belangrijkste daarvan zijn de 42 telescopen van de Allen Telescope Array. Tot nu toe hebben de antennes geen tekenen van leven uit het universum opgevangen.
Op Kloptdatwel berichtten we vorig jaar dat de Allen Array-antennes wegens geldgebrek moesten worden stilgelegd. Maar begin december 2011 was er weer voldoende geld bij elkaar geschraapt om de telescopen aan het werk te zetten. De Amerikaanse krant New York Times berichtte op 29 januari:
‘Operating on money and equipment scrounged from the public and from Silicon Valley millionaires, and on the stubborn strength of their own dreams, a band of astronomers recently restarted one of the iconic quests of modern science, the search for extraterrestrial intelligence — SETI, for short — which had been interrupted last year by a lack of financing’.
Onlangs werd uit ander onderzoek duidelijk dat heel veel sterren een planetenstelsel hebben. Dat maakt het SETI-onderzoek in de ogen van veel wetenschappers extra relevant. Volgens de New York Times:
‘Advanced life and technology might be rare in the cosmos, said Geoffrey W. Marcy, the Watson and Marilyn Alberts in the Search for Extraterrestrial Intelligence professor at the University of California, Berkeley, “but surely they are out there, because the number of Earthlike planets in the Milky Way galaxy is simply too great.”
De SETI-telescopen onderzoeken op dit moment ster voor ster het sterrenbeeld Zwaan. Als de telescopen een signaal van een andere beschaving oppikken, dan zou dit natuurlijk één van de belangrijkste wetenschappelijke ontdekkingen ooit zijn. Maar wat moeten we vervolgens doen? Antwoord geven? Het is erg belangrijk dat we achter de bedoelingen van de aliens komen. Volgens bekende natuurkundige Stephen Hawking is de kans groot dat een ontmoeting met aliens slecht zal aflopen voor de mensheid. Hij bepleit dan ook voorzichtigheid. Hawking herinnert aan het lot van de Indianen nadat Columbus voet aan wal had gezet in Amerika. Volgens een artikel uit 2010 in het Amerikaanse nieuwsblog Huffington Post:
“To my mathematical brain, the numbers alone make thinking about aliens perfectly rational,” Hawking says in a new Discovery Channel series called Stephen Hawking’s Universe. “The real challenge is to work out what aliens might actually be like. … [Hawking] suggests that aliens might simply raid Earth for its resources and then move on: “We only have to look at ourselves to see how intelligent life might develop into something we wouldn’t want to meet. I imagine they might exist in massive ships, having used up all the resources from their home planet. Such advanced aliens would perhaps become nomads, looking to conquer and colonise whatever planets they can reach. He concludes that trying to make contact with alien races is “a little too risky”. He said: “If aliens ever visit us, I think the outcome would be much as when Christopher Columbus first landed in America, which didn’t turn out very well for the Native Americans.”
Maar misschien zijn we al lang ontdekt. Onze radio- en TV-uitzendingen razen al ruim honderd jaar met de snelheid van het licht de ruimte in. En er is natuurlijk een microscopisch kleine kans dat het ruimteschip Voyager, sinds 35 jaar onderweg met een snelheid van 61.000 km/u, wordt gevonden door aliens. Aan boord is een gouden plaat met informatie over de aarde, waaronder songs van Chuck Berry en Beethoven. Misschien vragen de aliens bij een eerste bezoek wel om meer Chuck Berry.
Voorzijde: toekomstplannen voor de Allen Telescope Array. Uiteindelijk moeten er 350 antennes komen. Bron: wikipedia.