Mijn bijdrage aan “Peilingoproer”

Op 12 januari 2017 is er een bijeenkomst in Den Haag over peilingen met de naam “Peilingoproer”.

Over de methodische aspecten van het doen van goede peilingen en de jarenlange kritiek schreef ik dit uitgebreide stuk.

De mail waarmee ik dit stuk onder de aangesproken personen verstuurde eindigde ik met:

“Mijn doel was en is om er alles aan te doen om toevalsfluctuaties in mijn peilingen  te verminderen. Dat betekent naast zorgvuldig werken; 1)  corrigeren voor zowel de systematische als de incidentele fout;  en 2)  met behulp van de nieuwe technische mogelijkheden veranderingen zoveel mogelijk op  individueel niveau veranderingen vast te stellen.

Het eerste doe ik al 40 jaar; het laatste al 15 jaar. Iedereen kan dat op verschillende plekken nalezen. Het levert peilingen op die in de regel als eerste electorale trends blootleggen en (veel) minder statistische ruis bevatten dan peilingen van andere bureaus.

Ik moedig iedereen aan om dezelfde of andere innovaties toe te passen — en als het even kan ook weer verder te denken over hoe het nog beter kan. Dat draagt bij aan een zo accuraat mogelijk beeld van de electorale ontwikkelingen in Nederland.

En eens te stoppen met die standaardriedeltjes als je om commentaar gevraagd wordt in de media.

 

 

GeenPeil, antwoord op het democratisch deficit!?

Al lang geef ik aan dat ons parlementaire stelsel, zoals trouwens in vrijwel alle landen waar zo een stelsel is, een ernstig democratisch deficit kent. Een systeem dat goed werkte in de 19e eeuw en ook een groot deel van de 20e eeuw is inmiddels achterhaald. De ontwikkelingen van internet hebben op vele manieren effect op de wijze waarop burgers zich informeren en kunnen organiseren en dat botst met het in de 19e eeuw ontwikkelde stelsel.

Dat heeft echter niet geleid tot aanpassingen of veranderingen in politieke stelsels, die nog steeds opereren, zoals ze het de laatste 100 jaar hebben gedaan. Een referendum was nog een soort poging om de burger toch een vorm van invloed te geven, maar zoals ik vaak zeg “een oud systeem wordt geen nieuw systeem door er technologie aan toe te voegen”.  In Nederland zagen we zowel in 2005 als in 2016 dat de uitslag van een referendum, amper serieus genomen werd. (We zagen trouwens ook dat een dergelijk referendum gekoppeld aan een oud systeem, voor de kiezers een mogelijkheid is hun middelvinger op te steken tegen het heersende systeem, los van wat nog het onderwerp was van het referendum).

Via Peil.nl probeer ik al lang zichtbaar te maken wat er onder de Nederlanders leeft. En regelmatig zie je dat kiezers van bepaalde partijen andere opvattingen hebben dan uit het stemgedrag in de Tweede Kamer van die partij blijkt. Op zichzelf hoeft dat geen drama te zijn, maar ik heb toch meestal de indruk dat die opvattingen van de eigen kiezers weinig invloed hebben op het stemgedrag van die partijen, zeker als ze in de regering zitten.

In 2010 richtte mijn zoon Marc, No Ties en ik de dag na de verkiezingen Schaduwkamer op. Daarbij boden we de kiezers mee te stemmen met hun eigen partijen in de Tweede Kamer. Regelmatig legden we de meer dan 20.000 leden van Schaduwkamer belangrijke moties voor die in de Tweede Kamer in stemming waren gebracht.

Dit was het verslag na 1 jaar Schaduwkamer.  En dit waren de resultaten van 15 moties per partij.

We hoopten dat de politieke partijen op de een of andere manier in de uitslagen geinteresseerd waren, maar dat bleek een misrekening en daarom stopten we na ruim 1 jaar ermee.

Vandaag is GeenPeil gestart. Zij gaan proberen om de stem van de kiezer op een heel eigentijdse manier in de Tweede Kamer te laten horen onder het motto “Stem op Jezelf”. De gekozen kamerleden van deze partij zullen bij stemmingen in de Tweede Kamer op een directe wijze de mening vertegenwoordigen van haar leden. Leden van GeenPeil mogen hun stem uitbrengen en de kamerleden zullen stemmen conform het oordeel van de leden. Bij minder dan 5 kamerleden zal dat gaan volgens het principe “winner takes all”  en bij meer dan 5 kamerleden via een verdeling gebaseerd op de percentuele uitslag.

Als je op de website kijkt dan zie je dat ze de moderne mogelijkheden van technologie goed gebruiken. Gecombineerd met een grote groep Nederlanders die GeenStijl volgen, zodat men niet afhankelijk is van de traditionele media, zou dit best eens succesvol kunnen worden. Het Oekraine referendum heeft al laten zien waartoe GeenStijl in staat is.  300.000 stemmen zou al 5 zetels kunnen betekenen.

Mocht GeenStijl succesvol worden bij deze verkiezingen dan zou dit wel eens een katalysator kunnen worden van de -in mijn opvattingen – hoognodige hervorming van ons democratisch stelsel, met duidelijk meer invloed van de burgers. Niet omdat vervolgens ons hele stelsel zo zal gaan opereren (want dan werkt het ook niet), maar wel doordat bestaande partijen gedwongen ons hele parlementaire stelsel aan een grondige hervorming moeten onderwerpen met duidelijk meer directe invloed van kiezers op zowel ons landsbestuur als hun eigen lot.

Als GeenPeil in Nederland succesvol zal zijn dan valt het te verwachten dat de infrastructuur en aanpak ook door groepen burgers in andere landen wordt overgenomen met alle gevolgen van dien.

Een heel boeiend initiatief dat niet alleen voor Nederland wel eens historisch zou kunnen zijn.

Spitzer weer in de bocht

In 2013 schreef Manfred Spitzer het boek “Digitale Dimentie”.  Ik las het en mijn broek zakte af. In het laatste hoofdstuk liet hij zien van welke invalshoek hij zijn boek schreef.  Zelf bewust geen televisie in huis. Het ideale leven volgens hem schetsend waarbij je denkt dat je dan in een hutje op de hei moet gaan zitten. De journalist Peter Teffer (@peterteffer) analyseerde destijds dat boek en beschreef daarbij uitgebreid hoe selectief Spitzer met zijn noten bezig was. Hij pakte er alleen uit wat in zijn beeld paste. Absoluut niet zo wetenschappelijk als hij zelf pretendeert. Dit was zijn korte weergave van zijn analyse. En dit de uitgebreide

In Duitsland is Spitzer vorig jaar met een nieuw boek uitgekomen, dat deze week in Nederland uitkomt. “Cyberkrank”.  In Nederland heet het “Digiziek”. In Duitsland was de ondertitel  “Hoe het digitale leven onze gezondheid ruineert.” In Nederland met de ondertitel “Hoe wij ons verstand kapotmaken”. De Duitse ondertitel ging blijkbaar de Nederlandse uitgever wel wat te ver.

Deze week komt het in Nederland uit en in De Telegraaf van vandaag staat er een uitgebreid artikel over. Eigenlijk kan ik daar hetzelfde over schrijven als ik in 2013 deed. Lees het aub nog een keer. 

Elke technologische ontwikkeling uit de geschiedenis heeft zijn voor- en nadelen. En  het is ook niet erg op de mogelijke negatieve kanten van technologische ontwikkelingen te wijzen.  Maar als je erin slaagt, zoals Spitzer in 2013 deed en nu weer, geen enkel positieve kant ervan te melden, en ongeveer alles wat er negatief is aan het leven toewijst aan die technologische ontwikkeling, dan heb je gigantische oogkleppen op.  Bega je als wetenschapper de grote fout alleen datgene uit de literatuur te pakken wat jouw mening ondersteunt (waar Peter Teffer in 2013 vele voorbeelden van gaf). Ergens aan het eind van zijn boek uit 2013 schrijft hij letterlijk het volgende: “Mijd  digitale media. Daarvan worden we …… dik, dom, agressief, eenzaam, ziek en ongelukkig.”  Dan kan ik je als wetenschapper niet serieus nemen, ook al staat er Herr Prof. Dr. Dr. voor je naam (jaja, twee keer Dr.)

Ik heb hem toen een dwaallicht genoemd, en dat doe ik nu weer. Ik beschreef het in 2013 als volgt “alsof de Taliban een boek over het christendom schrijft”.

Als je alles volgt wat Spitzer vindt dan moet je direct in een hutje op de hei gaan wonen. En als je je kind compleet weghoudt van de digitale wereld (wat hij dus vindt), dan doe je je kind ernstig tekort en zet je hem op achterstand naar de toekomst toe.

Ik eindig met dezelfde zinnen als ik in 2013 schreef:

De wereld wordt steeds digitaler of je het leuk vindt of niet. Als je het wilt zien biedt het mogelijkheden aan jongeren (en ouderen) die men jaren geleden voor onmogelijk had gehouden. Alle kennis in de wereld is letterlijk een muisklik van je verwijderd. Je kunt met veel meer mensen communiceren dan je vroeger kon.  Dankzij computer en tablet ben je ook in staat om je persoonlijke productiviteit aanzienlijk te verhogen (doordat je niet meer door fysieke grenzen wordt belemmerd). Dat levert nieuwe kansen op en nieuwe bedreigingen. Het is anders dan vroeger, niet beter of slechter.  Maar het slechtste voor je kinderen zou zijn als je alleen maar de bedreigingen ziet en het alleen maar slechter vindt dan vroeger. Want we hebben nog geen tijdmachine waarmee je je kind naar dat verleden kan meenemen. Als ouder en als school heb je de plicht om je kind op de toekomst voor te bereiden. En dat doe je absoluut niet als je het advies van Spitzer opvolgt.

 

ICT kan juist wel goed op scholen gebruikt worden

SONY DSC

Master Steve JobsSchool in Sneek

Aleid Truijens gaat, evenals trouwens de andere media in Nederland, in haar column van zaterdag “ICT heeft valse hoop gewekt” voorbij aan de belangrijkste conclusies van het deze week verschenen belangwekkende OECD rapport over de relatie tussen schoolresultaten en het gebruik van ICT. Lees meer

Het Kohnstamm Instituut onwaardig

Vorige maand  kwam via een publicatie in Metro in het nieuws dat het Kohnstamm Instituut bij een onderzoek had geconstateerd dat het werken met tablets geen verhoging van de motivatie van leerlingen tot gevolg heeft. Omdat het onderwerp me interesseert en ik in de praktijk op onze scholen het tegendeel waarneem, heb ik het persbericht bekeken en het onderzoeksrapport bestudeerd:  “Gebruik van tablets in School”.  En ik ben zeer geschrokken van de kwaliteit van het kwantitatieve onderzoek. Enerzijds was de opzet van het onderzoek dusdanig dat je eigenlijk nooit de conclusie kon gaan trekken waarvoor het onderzoek was uitgevoerd. Anderzijds, als je dan desondanks een conclusie zou willen trekken, dan was het in ieder geval niet de conclusie die in het rapport stond.

Beide punten zal ik hieronder toelichten

1. Als je een kwantitatief onderzoek doet dan moet je wel een opzet kiezen, waarmee je de onderzoeksvraag goed kan beantwoorden. En dat is bij dit onderzoek (zoals het in hoofdstuk 4 is gerapporteerd) niet het geval.

De onderzoeksvraag was of er sprake van is dat het werken met een tablet leidt tot hogere motivatie bij de leerlingen. Het beste is dan om meerdere momenten te meten. De startsituatie zonder een tablet en daarna de situatie na een bepaalde periode, vergeleken met een controlegroep.

En als dat niet kan dan is het alternatief dat je leerlingen onderzoekt op het punt “motivatie” die met tablets werken, vergeleken met leerlingen die daar qua leeftijd en niveau op lijken zonder een tablet. Dat is gebeurd voor 4 verschillende “apps”.  Maar wel steeds met maar 1 klas  waar de app werd gebruikt. En dat houdt in dat een belangrijke variabele die ook zijn invloed op de motivatie kan hebben, namelijk de leerkracht,  de oorzaak zou kunnen zijn voor verschillen in motivatie die je vindt.  Dat had je kunnen vermijden door diverse klassen te hebben met verschillende leraren. Maar als je dat om welke reden niet beschikbaar hebt, dan is het een kwestie van “jammer, maar helaas”, want anders loop je het gevaar de factor “leerkacht”  te meten in plaats van de factor “tablet”.

En als je toch een dergelijk onderzoek toch gaat uitvoeren om er zelf van te leren dan vind ik dat ook verder prima, maar ga dan niet met een persbericht naar buiten over de bevindingen.

 

2. Maar het wordt eigenlijk nog interessanter als naar de resultaten van het kwantitatief onderzoek onder de 4 apps wordt gekeken, alsmede naar de interpretatie ervan door de onderzoekers.

Het onderzoek naar de twee apps voor de Engelse taal is via een en dezelfde vragenlijst gemaakt die in de bijlage van het rapport te zien is. Die voor de andere twee apps is via hiervan verschillende vragenlijsten gemaakt.  Ik zal inzoomen op de twee Engelse apps, die gemeten zijn.

De resultaten van de tabellen 4.3 en 4.5 uit het onderzoek laten zien dat voor de  beide apps over vrijwel de gehele linie de experimentele groep (dus met tablet) positiever  scoort dan de controle groep.

.                                            Take it Easy                Pearson E-text

.                                          Exp.   Contr.                   Exp.      Contr.

Plezier                             2.88      2.52                    2.57      2.34

Uitdaging                       2.50      2.13                    2.35      2.21

Angst                               3.08      3.04                    3.29      3.03

Bij Take it Easy wordt bij de analyse in het rapport op haast onnavolgbare wijze het wel significante verschil wegverklaard door groepseffecten. En bij Pearson E-Text wordt berekend dat bij de N van resp 24 en 31 leerlingen (in beide gevallen dus slechts een klas) de gevonden verschillen niet significant zijn.

En bij die laatste app staat vervolgens op pagina 27 van het rapport:

 “De experimentele groep scoort op alle drie de schalen hoger dan de controlegroep. De verschillen tussen de twee groepen zijn echter op geen van de schalen significant.

Er kan dus niet geconcludeerd worden dat de experimentele groep meer plezier heeft in Engels, meer uitdaging ervaart bij Engels en minder angstig is voor Engels.

Conclusie

Leerlingen die met de app Pearson werken hebben niet meer plezier in Engels, ervaren niet meer uitdaging en zijn niet minder angstig voor Engels dan leerlingen die niet met de app Pearson werken.”

Dit is de klassieke fout bij onderzoek waar kansberekening wordt gebruikt. Er wordt geen significant verschil gevonden en vervolgens wordt er gezegd dat er dus geen verschillen zijn. (The absence of evidence is not the same as the evidence of absence).

Als de N maar klein genoeg is dan is de kans dat je een significant verschil vindt klein. Net zo goed als wanneer de N heel groot is de kans veel groter wordt dat het een significant verschil is.  (Tegelijkertijd moet je je dan afvragen wat dan de relevantie is van een klein, maar significant verschil.)

Maar wat je dus niet mag zeggen is datgene wat er onder de conclusie als tekst staat weergegeven. Namelijk dat die leerlingen, zowel niet meer plezier hebben, niet meer uitdaging ervaren en niet minder angstig zijn.

In feite is er wel een verschil gevonden (resp. 0.23, 0.14 en 0.26) alleen is die niet significant. (En dat wordt nog in de hand gewerkt door een heel kleine N). Daarbij is de conclusie ook nog zodanig stevig gesteld als ware het zou gelden voor overal waar die app wordt gebruikt, terwijl het maar via onderzoek in één klas is vastgesteld.

To add injury to insult lees ik op blz. 32 bij de conclusies:

“Al met al is er dus weinig evidentie dat de onderhavige apps voor Engels in het basisonderwijs bijdragen aan een sterkere motivatie voor het vak, zoals verondersteld door een substantieel aantal respondenten in de interviewronde.”

Nu is het zo dat de twee Engelse apps getest zijn met dezelfde vragenlijst. En dat bij beide apps, zoals hierboven staat, vooral positieve verschillen worden gevonden. In dat geval zou het zeker toegestaan zijn om ook een statistische analyse te maken over de uitkomsten van de beide apps samen die onderzocht zijn.

Stel dat er niet met 2 apps met 10 apps het onderzoek gedaan was. En dat in alle gevallen er een positief verschil was geweest, maar steeds niet significant. Juist als je goed de kern van het principe van kansberekening en significantie beseft dan wordt de steekproef bekeken alsof het er een is uit een oneindig aantal steekproeven (die dan ook een normaalverdeling oplevert).  10 steekproeven die allemaal een positief verschil laten zien, ook als ze allemaal een relatief kleine N hebben, vormen een sterk bewijs dat er sprake is van een verschil in de populatie.

Ik heb de berekening niet zelf uitgevoerd, maar ik ben ervan overtuig dat als de scores van de twee apps bij elkaar worden genomen voor de drie onderdelen (gemiddeldes, standaarddeviatie en de N) er wel een overall significantie uitgekomen zou zijn. Wellicht niet voor de dimensie angst, maar wel voor plezier en uitdaging.

Een conclusie als “al met al is dus weinig evidentie…..” over de twee Engelse apps  zoals op pagina 32 is dus onjuist.  Er is juist veel evidentie.

En deze samentrekking van de twee apps is zeker relevant omdat bij de conclusies op pagina 32 ook de beide apps samen worden getrokken: “… de apps voor Engels gebruiken….”.

 

Blijkbaar vindt het Kohnstamm Instituut deze conclusie uit het rapport dusdanig belangrijk dat ze het in het persbericht vermeld (en zoals die ook is overgenomen door Metro).

Maar als je naar het onderzoek kijkt, zoals ik hierboven heb beschreven dan zien we bij 3 van de 4 apps hogere scores ten aanzien van de motivatie tussen de experimentele en controlegroepen. En ook heb ik laten zien dat bij de twee Engelse apps voor het basisonderwijs als de significantie bepaald wordt aan de hand van de twee apps er wel sprake zal zijn van significante verschillen.

 

Zoals ik al aangegeven heb, vind ik het echt niet bezwaarlijk als er een kwantitatief onderzoek wordt uitgevoerd onder verre van ideale omstandigheden. En het kan ook leerzaam zijn om de resultaten te bekijken en na te gaan welke elementen kunnen hebben geïnterfereerd. Maar dat kwantitatieve onderzoeksdeel hoort dan niet in een beleidsrapport, laat staan dat er zulke conclusies uit getrokken worden dat ze in de kop staan van de melding op de website van het Kohnstamm instituut over dit rapport en ook nog in de media terecht komen.

De enige juiste conclusie was, als men toch iets over het kwantitatieve gedeelte had willen zeggen, dat het onderzoek wel aanwijzingen geeft dat er sprake is van een hogere motivatie onder leerlingen als er met een tablet wordt gewerkt, maar dat de onderzoeksopzet helaas niet voldoende basis biedt om daarover harde conclusies te trekken.

Kortom: een onderzoek en een persbericht het Kohnstamm Instituut onwaardig.

Struisvogels

Mijn beide ouders hebben Auschwitz overleefd. Als ze over de oorlogsperiode vertelden dan waren ze als het ware nog geschokter over het gedrag van Nederlanders in de oorlog dan van de Duitsers.

“De Duitsers kenden we niet van voor de oorlog”  zeiden ze, “maar de Nederlanders wel”.  Politieagenten die mijn vader voor de oorlog persoonlijk kenden, waren Jodenjagers geworden. Zij haalden mijn vader van zijn onderduikadres op waar hij verraden was door buren. Hij werd met Nederlandse trambestuurders naar de trein vervoerd en met Nederlandse machinisten naar Westerbork. Door een Nederlandse rechter werd mijn vader gedurende de oorlog veroordeeld omdat hij Joden illegaal aan voedsel hielp (Een strafblad dat na de oorlog, ondanks pogingen van mijn vader, bleef bestaan). Op 6 maart jl. -100 jaar na zijn geboorte- heb ik zijn oorlogsherinneringen geplaatst.

Mijn les was dat de wereld in de werkelijkheid onder de oppervlakte er anders uit kan zien dan aan de buitenkant blijkt.

In mijn eigen leven heb ik altijd geprobeerd niet te discrimineren. Alle mensen zijn voor mij gelijk. Pas als een individu bewijst dat hij mijn achting of respect niet waard is zal ik mijn houding veranderen. Die houding zorgt er mede voor dat ik als scheidsrechter bij mijn voetbalwedstrijden nooit problemen heb, welke teams ik ook fluit. Omdat ik alle spelers met respect behandel.

Ik vind uitspraken van Wilders zoals met “kopvoddentax”  en wat hij deed op de verkiezingsavond met “minder Marokkanen” verfoeilijk. Hij kan een dergelijk onderwerp ook op een andere manier aan de orde stellen.

Enkele dagen later heb ik een onderzoek gedaan, waaruit bleek dat 72% van de Nederlanders dit een niet-acceptabele uitspraak van hem vond. 20% van de PVV-ers vond dat ook.

Door de jaren heen heb ik onderzoeken uitgevoerd voor vertegenwoordigers van alle partijen van Nederland. Juist gezien mijn positie vind ik dat ik bij partijen vertegenwoordigt in de Tweede Kamer geen selectie mag toepassen, voor wie ik dat onderzoek wel of niet doe.

Mijn verantwoordelijk daarbij is dat de vraagstelling juist is en de verantwoordelijkheid om de uitslagen van dat onderzoek na het uitvoeren om dat te publiceren ligt bij die politieke partij en de media die daar dan wat mee willen doen.

Zo heb ik al meerdere malen ook onderzoeken voor de PVV uitgevoerd over wat Nederlanders vinden.

Vrijdag zijn er een serie vragen gesteld bij een steekproef van meer dan 2500 Nederlanders over de opvattingen van de Nederlanders over een aantal punten direct of indirect verband houdende met die uitspraken van Wilders. Daaruit blijkt o.a. dat de uitspraak over minder Marokkanen door 43% van de Nederlanders gedeeld wordt.

Deze specifieke vraag, na o.a. een vraag over de strafbaarheid van de uitspraak van Wilders,  luidde “wat is uw eigen standpunt ten aanzien van Marokkanen in Nederland”?  43% geeft dan aan “Ik heb liever minder Marokkanen in Nederland”. Onder de PVV kiezers is dat 95%, bij de VVD-kiezers 59%.  Onder de kiezers van andere partijen loopt dit uiteen van 19% bij D66 tot 36% bij de SP.

Dat zoveel mensen geschokt waren door de wijze van optreden van Wilders op de avond van 19 maart jl begrijp ik zeker. Ik was dat ook.  Maar laat men zich niet in slaap sussen door de vele -terecht- verontwaardigde reacties die daarop volgden. Want dit uitgevoerde onderzoek laat zien dat onder de oppervlakte een forse problematiek leeft.

En die gaat niet weg door dat niet zichtbaar te maken via onderzoek. Noch door te stellen dat dit onderzoek schandelijk is.

Ik denk dat mijn ouders liever voor de oorlog al hadden geweten hoe de wereld er werkelijk uitzag.

Back to the Future

De afgelopen 10 dagen voelde ik me als de hoofdpersoon in de film “Back tot he Future”.  Op maandag 19 augustus was ik de hele dag in Sneek, de eerste schooldag voor de 125 leerlingen van de Master Steve JobsSchool.  Een nieuw schoolgebouw werd geopend en de kinderen kregen ook allemaal hun iPad. Om 14.30 uur was er een open huis voor ouders en leerlingen. Het bruiste er van energie en enthousiasme.

Een dag later ging ik naar Amstelveen, voor de eerste dag van mijn 4-jarige dochter op de basisschool.  Evenals haar oudste broer Marc, gaat ze naar een Montessorischool. Hoewel dit niet dezelfde school is als Marc toen naar toe ging, had ik wel het gevoel dat ik terug ging naar 1981, zijn eerste schooldag.  De kleuren van de klas (overwegend bruin), het materiaal, het meubilair, precies als in 1981.  Ook de werkjes waren identiek (en zagen er soms zo sjofel uit alsof ze ook toen waren aangeschaft). En in tegenstelling tot Sneek was er geen ijskastje waar de kinderen hun lunchbox en drankje in konden wegzetten. (Deed me denken aan mijn schooltijd waar ik dankzij de lauwe schoolmelk iedere middag geleerd heb om nooit meer melk te willen drinken).

Een dag later ging ik weer naar Sneek, een mediabijeenkomst waar bijna net zoveel mensen waren van de media als leerlingen op de school. Leuk was om te zien hoe tijdens de persconferentie een tiental leerlingen hun iPad gebruikten om zelf op video de gebeurtenis vast te leggen en er een reportage van te maken. Lees meer