Trump, Brexit, peilingen en de PVV

Zowel bij het Brexit-referendum als bij de verkiezingen in de VS viel de uitslag in landelijke percentages (net) binnen de marge van de peilingen in die landen. Clinton heeft 0,5% meer stemmen in de VS dan Trump, terwijl bij de laatste peilingen dat verschil gemiddeld rond de 3% zat.  Toch was de uitslag van Brexit en de Amerikaanse presidentsverkiezingen overall anders dan verwacht werd. (Een kleine meerderheid voor REMAIN en Clinton president).

Als bij voorbeeld de uitslag was geweest dat Clinton met 5,5% meerderheid had gewonnen (ook een verschil van 2,5%) dan had het gevoel over de peilingen duidelijk anders geweest dan nu t.a.v. de peilingen in de VS. Dat verschil was er in 2012 ook, maar toen won Obama met meer dan verwacht.

Maar dat is verder geen goed excuus. Er is zeker wat fundamenteels aan de hand. Het verschil berust zeker niet alleen op statistische marges. Maar het heeft met iets anders te maken. Iets wat ook in Nederland het geval is: de oude patronen van het stemmen zijn inmiddels fors doorbroken. En daar wordt bij de peilingen geen of te weinig rekening mee gehouden.

Enerzijds zien we dat het oude onderscheid in het kiesgedrag tussen links-rechts, arbeiders en middenstanders, ouderen-jongeren zich niet meer op dezelfde manier voordoet. Anderzijds, en dat is nog belangrijker, zie je dat een bepaalde groep, die van oudsher relatief minder opkwam bij verkiezingen dan de rest (in zowel de VS als bij Brexit was dat de blanke, doorgaans wat oudere, niet stedelijke bewoner) beduidend beter opkomt dan voorheen (zeker in relatie tot de jongeren). En dat komt door de combinatie van boosheid ten opzichte van de elite, het politieke stelstel en dat er een politicus is die daar goed op inspeelt.

In mijn analyses maak ik al lange tijd gewag van twee parallelle werelden en hoe die elkaar steeds minder begrijpen (en soms zelfs wel verachten). Dat de regels in de ene wereld niet opgaan in de andere wereld. Peilers en peilingen, maar ook het overgrote deel van de journalisten, commentatoren en politici, maken deel uit van die ene wereld. En hebben daardoor een soort bias ten opzichte van die andere wereld. Dit is een prima artikel erover. (En zelfs na het lezen van dit artikel had ik zelf ook gedacht dat Clinton zou winnen.)

Ook bij de peilingen in Nederland stel ik dat patroon vast. En uit dat ook met regelmaat in mijn weekpeilingen.  Bij mij heeft de PVV in januari 2016 op 42 zetels gestaan, terwijl bij de Politieke Barometer de PVV toen op 32 zetels stond. (Inmiddels is dat bij mij 27 en bij de Politieke Barometer 22 zetels). Het kan natuurlijk niet zo zijn dat de PVV zowel op 42 staat als op 32, zoals in januari jl. het geval was.

Die partij en het electoraat ervan is ook zo een relatief nieuwe factor in de Nederlandse politiek. Iets wat eigenlijk vanaf Fortuyn in 2001-2002 het geval is. Hoewel ik toen zelf geen peilingen deed heb ik meerdere keren aangegeven dat de peilingen van toen een onderschatting waren van de score van Fortuyn. Als hij niet was vermoord dan had de LPF beduidend meer zetels gehaald dan de 26 die gehaald zijn (en was hij vrijwel zeker de grootste geworden).  Iets wat toen (en ook later) werd ontkend door de Politieke Barometer.

Uit mijn Nederlandse peilingen van begin 2016 blijkt dat op een gegeven moment in de tijd ruim 30% van de Nederlanders de PVV een kans geven op een stem. Een score die we tot nu toe nog niet bij verkiezingen voor de PVV hebben gezien 16% was het hoogste (en dat is wat lager dan de score die ik nu aangeef, namelijk 18%).

Bij andere verkiezingen dan voor de Tweede Kamer doet de PVV het overall slechter dan in de landelijke peilingen. Dat lijkt dan samen te hangen met een lagere opkomt door de potentiele PVV-kiezer. Maar als de factoren gunstig staan bij Tweede Kamerverkiezingen kan de PVV ruim boven haar maximum van 2010 (24 zetels) scoren.  In 2012 is dat niet gebeurd, omdat enerzijds de periode dat de PVV de regering gedoogde, niet erg bij de aanhang aansloeg. En anderzijds bij de tweestrijd tussen Rutte en Samsom, de potentiele PVV-kiezers voor een niet gering deel Rutte stemde om Samsom tegen te houden.

Afgelopen zondag liet ik al zien dat er nu een veel diepere kloof is tussen de PVV- en VVD-kiezer mbt Rutte en Wilders. De grote vraag voor 15 maart 2017 t.a.v. de uitslag en met name die van de PVV zal zijn of de potentiele aanhang wel massaal gaat opkomen. Welke onderwerpen op dat moment vooral spelen en op welke wijze die potentiele kiezers worden aangesproken? Daarbij zal het minder belangrijk zijn wat Wilders zegt en doet (want die draagt het overgrote deel der PVV-kiezers op handen), maar op welke wijze ze door de andere politici (en media) worden benaderd/behandeld. Als dat gaat op de wijze zoals in de VS met Trump de laatste maanden, dan is de kans groot dat de PVV op 15 maart de grootste partij gaat worden, (zoals ik al vaker heb aangegeven). En aangezien er een potentieel is van meer dan 30% zou de PVV ook boven de 35 zetels kunnen eindigen!

In ieder geval is ook de uitslag in de VS weer een bewijs dat de (electorale) wereld zoals we die lang kenden, niet meer bestaat. En wordt steeds meer bewezen dat de politieke stelsels niet meer passen bij deze tijd en het huidig electoraat. Dat kan niet anders dan uiteindelijk stevig mis gaan. De scheiding binnen de bevolking wordt steeds groter en de slagvaardigheid van het bestuur neem verder af. Het van binnenuit vernieuwen van die stelsels lijkt onmogelijk te zijn, terwijl dat toch op de een of andere manier moet gaan gebeuren. Het nut van peilingen, althans zoals ik het wekelijks invul, dat ontwikkelingen binnen de bevolking over relevante onderwerpen goed gevolgd kan worden en IEDEREEN dat kan zien en daar zijn eigen conclusies uit kan trekken.

 

100 vragen tgv 40 jarig jubileum

2005-2016Op 9 oktober 2016 is het precies 40 jaar geleden dat mijn allereerste peiling naar politieke voorkeur werd bekend gemaakt. Dit gebeurde in VARA’s radioprogramma “In de Rooie Haan”,  in de aanloop naar de verkiezingen van 1977.

Dat ik 40 jaar de voorkeur van de Nederlandse kiezer heb kunnen peilen, is te danken aan de respondenten die door de jaren heen aan mijn onderzoeken hebben meegewerkt. Ik schat dat er in die tijd meer dan 5 miljoen vragenlijsten over politieke onderwerpen zijn ingevuld, die onder mijn leiding waren ontwikkeld.

Lees meer

Making a Murderer; ook in Nederland!

Van iedereen die naar deze geweldige documentaire Making a Murderer op Netflix gekeken heeft, hoor ik zowel opperste verbazing als een diepe verontwaardiging, die overgaat in boosheid. Men kan gewoon niet geloven hoe slecht het politiewerk is gedaan, en hoe het OM, politie en de onderzoeklabs er letterlijk alles aan doen om een onschuldige vast te krijgen en te houden. En hoe vervolgens de rechters en jury met dit bewijs Steven Avery tot twee keer toe onschuldig veroordeelden.

Maar mij verbaast het niet. Lees meer

Wat we nu al weten over de regeringvorming na TK2017 (of TK2016?)

Aan het eind van 2015 zijn we maximaal 15 maanden verwijderd van de volgende Tweede Kamerverkiezingen. De contouren van die verkiezingen en de vorming van de regering erna dienen zich al aan, met name door de uitslag van de Eerste Kamerverkiezingen en de electorale ontwikkelingen in 2015. Op deze laatste zondag van het jaar daarom een vooruitblik van wat ons te wachten staat bij die verkiezingen en de vorming van de volgende regering. Lees meer

ICT kan juist wel goed op scholen gebruikt worden

SONY DSC

Master Steve JobsSchool in Sneek

Aleid Truijens gaat, evenals trouwens de andere media in Nederland, in haar column van zaterdag “ICT heeft valse hoop gewekt” voorbij aan de belangrijkste conclusies van het deze week verschenen belangwekkende OECD rapport over de relatie tussen schoolresultaten en het gebruik van ICT. Lees meer

Het Kohnstamm Instituut onwaardig

Vorige maand  kwam via een publicatie in Metro in het nieuws dat het Kohnstamm Instituut bij een onderzoek had geconstateerd dat het werken met tablets geen verhoging van de motivatie van leerlingen tot gevolg heeft. Omdat het onderwerp me interesseert en ik in de praktijk op onze scholen het tegendeel waarneem, heb ik het persbericht bekeken en het onderzoeksrapport bestudeerd:  “Gebruik van tablets in School”.  En ik ben zeer geschrokken van de kwaliteit van het kwantitatieve onderzoek. Enerzijds was de opzet van het onderzoek dusdanig dat je eigenlijk nooit de conclusie kon gaan trekken waarvoor het onderzoek was uitgevoerd. Anderzijds, als je dan desondanks een conclusie zou willen trekken, dan was het in ieder geval niet de conclusie die in het rapport stond.

Beide punten zal ik hieronder toelichten

1. Als je een kwantitatief onderzoek doet dan moet je wel een opzet kiezen, waarmee je de onderzoeksvraag goed kan beantwoorden. En dat is bij dit onderzoek (zoals het in hoofdstuk 4 is gerapporteerd) niet het geval.

De onderzoeksvraag was of er sprake van is dat het werken met een tablet leidt tot hogere motivatie bij de leerlingen. Het beste is dan om meerdere momenten te meten. De startsituatie zonder een tablet en daarna de situatie na een bepaalde periode, vergeleken met een controlegroep.

En als dat niet kan dan is het alternatief dat je leerlingen onderzoekt op het punt “motivatie” die met tablets werken, vergeleken met leerlingen die daar qua leeftijd en niveau op lijken zonder een tablet. Dat is gebeurd voor 4 verschillende “apps”.  Maar wel steeds met maar 1 klas  waar de app werd gebruikt. En dat houdt in dat een belangrijke variabele die ook zijn invloed op de motivatie kan hebben, namelijk de leerkracht,  de oorzaak zou kunnen zijn voor verschillen in motivatie die je vindt.  Dat had je kunnen vermijden door diverse klassen te hebben met verschillende leraren. Maar als je dat om welke reden niet beschikbaar hebt, dan is het een kwestie van “jammer, maar helaas”, want anders loop je het gevaar de factor “leerkacht”  te meten in plaats van de factor “tablet”.

En als je toch een dergelijk onderzoek toch gaat uitvoeren om er zelf van te leren dan vind ik dat ook verder prima, maar ga dan niet met een persbericht naar buiten over de bevindingen.

 

2. Maar het wordt eigenlijk nog interessanter als naar de resultaten van het kwantitatief onderzoek onder de 4 apps wordt gekeken, alsmede naar de interpretatie ervan door de onderzoekers.

Het onderzoek naar de twee apps voor de Engelse taal is via een en dezelfde vragenlijst gemaakt die in de bijlage van het rapport te zien is. Die voor de andere twee apps is via hiervan verschillende vragenlijsten gemaakt.  Ik zal inzoomen op de twee Engelse apps, die gemeten zijn.

De resultaten van de tabellen 4.3 en 4.5 uit het onderzoek laten zien dat voor de  beide apps over vrijwel de gehele linie de experimentele groep (dus met tablet) positiever  scoort dan de controle groep.

.                                            Take it Easy                Pearson E-text

.                                          Exp.   Contr.                   Exp.      Contr.

Plezier                             2.88      2.52                    2.57      2.34

Uitdaging                       2.50      2.13                    2.35      2.21

Angst                               3.08      3.04                    3.29      3.03

Bij Take it Easy wordt bij de analyse in het rapport op haast onnavolgbare wijze het wel significante verschil wegverklaard door groepseffecten. En bij Pearson E-Text wordt berekend dat bij de N van resp 24 en 31 leerlingen (in beide gevallen dus slechts een klas) de gevonden verschillen niet significant zijn.

En bij die laatste app staat vervolgens op pagina 27 van het rapport:

 “De experimentele groep scoort op alle drie de schalen hoger dan de controlegroep. De verschillen tussen de twee groepen zijn echter op geen van de schalen significant.

Er kan dus niet geconcludeerd worden dat de experimentele groep meer plezier heeft in Engels, meer uitdaging ervaart bij Engels en minder angstig is voor Engels.

Conclusie

Leerlingen die met de app Pearson werken hebben niet meer plezier in Engels, ervaren niet meer uitdaging en zijn niet minder angstig voor Engels dan leerlingen die niet met de app Pearson werken.”

Dit is de klassieke fout bij onderzoek waar kansberekening wordt gebruikt. Er wordt geen significant verschil gevonden en vervolgens wordt er gezegd dat er dus geen verschillen zijn. (The absence of evidence is not the same as the evidence of absence).

Als de N maar klein genoeg is dan is de kans dat je een significant verschil vindt klein. Net zo goed als wanneer de N heel groot is de kans veel groter wordt dat het een significant verschil is.  (Tegelijkertijd moet je je dan afvragen wat dan de relevantie is van een klein, maar significant verschil.)

Maar wat je dus niet mag zeggen is datgene wat er onder de conclusie als tekst staat weergegeven. Namelijk dat die leerlingen, zowel niet meer plezier hebben, niet meer uitdaging ervaren en niet minder angstig zijn.

In feite is er wel een verschil gevonden (resp. 0.23, 0.14 en 0.26) alleen is die niet significant. (En dat wordt nog in de hand gewerkt door een heel kleine N). Daarbij is de conclusie ook nog zodanig stevig gesteld als ware het zou gelden voor overal waar die app wordt gebruikt, terwijl het maar via onderzoek in één klas is vastgesteld.

To add injury to insult lees ik op blz. 32 bij de conclusies:

“Al met al is er dus weinig evidentie dat de onderhavige apps voor Engels in het basisonderwijs bijdragen aan een sterkere motivatie voor het vak, zoals verondersteld door een substantieel aantal respondenten in de interviewronde.”

Nu is het zo dat de twee Engelse apps getest zijn met dezelfde vragenlijst. En dat bij beide apps, zoals hierboven staat, vooral positieve verschillen worden gevonden. In dat geval zou het zeker toegestaan zijn om ook een statistische analyse te maken over de uitkomsten van de beide apps samen die onderzocht zijn.

Stel dat er niet met 2 apps met 10 apps het onderzoek gedaan was. En dat in alle gevallen er een positief verschil was geweest, maar steeds niet significant. Juist als je goed de kern van het principe van kansberekening en significantie beseft dan wordt de steekproef bekeken alsof het er een is uit een oneindig aantal steekproeven (die dan ook een normaalverdeling oplevert).  10 steekproeven die allemaal een positief verschil laten zien, ook als ze allemaal een relatief kleine N hebben, vormen een sterk bewijs dat er sprake is van een verschil in de populatie.

Ik heb de berekening niet zelf uitgevoerd, maar ik ben ervan overtuig dat als de scores van de twee apps bij elkaar worden genomen voor de drie onderdelen (gemiddeldes, standaarddeviatie en de N) er wel een overall significantie uitgekomen zou zijn. Wellicht niet voor de dimensie angst, maar wel voor plezier en uitdaging.

Een conclusie als “al met al is dus weinig evidentie…..” over de twee Engelse apps  zoals op pagina 32 is dus onjuist.  Er is juist veel evidentie.

En deze samentrekking van de twee apps is zeker relevant omdat bij de conclusies op pagina 32 ook de beide apps samen worden getrokken: “… de apps voor Engels gebruiken….”.

 

Blijkbaar vindt het Kohnstamm Instituut deze conclusie uit het rapport dusdanig belangrijk dat ze het in het persbericht vermeld (en zoals die ook is overgenomen door Metro).

Maar als je naar het onderzoek kijkt, zoals ik hierboven heb beschreven dan zien we bij 3 van de 4 apps hogere scores ten aanzien van de motivatie tussen de experimentele en controlegroepen. En ook heb ik laten zien dat bij de twee Engelse apps voor het basisonderwijs als de significantie bepaald wordt aan de hand van de twee apps er wel sprake zal zijn van significante verschillen.

 

Zoals ik al aangegeven heb, vind ik het echt niet bezwaarlijk als er een kwantitatief onderzoek wordt uitgevoerd onder verre van ideale omstandigheden. En het kan ook leerzaam zijn om de resultaten te bekijken en na te gaan welke elementen kunnen hebben geïnterfereerd. Maar dat kwantitatieve onderzoeksdeel hoort dan niet in een beleidsrapport, laat staan dat er zulke conclusies uit getrokken worden dat ze in de kop staan van de melding op de website van het Kohnstamm instituut over dit rapport en ook nog in de media terecht komen.

De enige juiste conclusie was, als men toch iets over het kwantitatieve gedeelte had willen zeggen, dat het onderzoek wel aanwijzingen geeft dat er sprake is van een hogere motivatie onder leerlingen als er met een tablet wordt gewerkt, maar dat de onderzoeksopzet helaas niet voldoende basis biedt om daarover harde conclusies te trekken.

Kortom: een onderzoek en een persbericht het Kohnstamm Instituut onwaardig.

Sleuteltabel Suriname

Een maand geleden schreef ik een artikel over het opinieonderzoek dat ik begin april heb begeleid in de aanloop naar de verkiezingen in Suriname. In het hart van dat artikel stond een tabel dat heel veel zegt over de electorale situatie in Suriname. Weliswaar is dat onderzoek 7 weken voor de verkiezingen gedaan en kunnen er zeker verschuivingen zijn opgetreden, de essentie van de tabel zal ook morgen bij de verkiezingenovereind blijven. Dat de jonge kiezers veel minder langs lijnen van bevolkingsgroepen zullen stemmen dan de ouderen (ten faveure van de NDP van Bouterse).  Als ik de diverse artikelen in de Nederlandse media de afgelopen dagen lees, herken ik daar niet zoveel meer van. Dinsdagochtend zullen we het weten wat er echt gebeurd is.

Index NDP – V7 2010-2015 naar leeftijd-bevolkingsgroep combinatie
Leeftijd-bevolkingsgroep combinatie
Totaal Totaal jong Jong- Hindoest Jong- Creool Jong- Overig Totaal oud Oud- Hindoest Oud- Creool Oud- Overig
Welke partij heeft u in 2010 gestemd? Megacomb 32% 32% 27% 40% 32% 32% 26% 45% 32%
Nieuwe Front 25% 21% 31% 16% 16% 29% 39% 31% 20%
Overige partijen 15% 12% 26% 25% 35% 18% 14% 8% 24%
Niet gestemd/ te jong 29% 35% 17% 20% 17% 21% 21% 17% 24%
Op welke partij bent u van plan op 25 mei 2015 te stemmen? NDP 38% 43% 37% 57% 43% 32% 27% 45% 33%
V7 20% 17% 25% 7% 15% 23% 32% 21% 17%
Overige partijen 9% 10% 2% 12% 14% 8% 5% 6% 12%
Weet nog niet/stem niet 33% 30% 36% 24% 28% 37% 37% 28% 38%
Index 2010                 Megacomb/Nieuw Front 1,28 1,52 0,86 2,53 2,00 1,10 0,66 1,46 1,62
Index 2015 NDP/V7 1,86 2,53 1,48 8,17 2,87 1,39 0,84 2,12 1,94

Dit onderzoek is begin april uitgevoerd door LC Media.