Zo zouden RIVM en GGD data moeten laten spreken

Geplaatst op 20 juni 2020 • Aanpassing 2 jaar geleden door Maurice

Geschreven door Maurice de Hond

Samenvatting van het artikel

Goede, actuele informatie is essentieel tijdens een crisis maar het RIVM faalt jammerlijk. Dit artikel illustreert aan de hand van twee voorbeelden hoe we worden misleid met data. Zeker nu er zoveel belang wordt gehecht aan "het dashboard", wordt het tijd dat de autoriteiten rekening houden met het GIGO-effect: garbage in, garbage out.

Lees volledig artikel: Zo zouden RIVM en GGD data moeten laten spreken

Leestijd: 6 minuten

Zo zouden RIVM en GGD data moeten laten spreken

Als er in een moderne democratie een grote crisis is, dan is het belangrijk om te beschikken over goede en up-to-date informatie.

Het doel is dan tweeledig:

Om op basis daarvan een goed en slagvaardig beleid te voeren
De bevolking zo goed mogelijk te informeren

Op beide doelen faalt het RIVM jammerlijk. En het trieste is, dat er sinds maart eigenlijk geen verbetering vastgesteld kan worden.

De misleiding door data

Ik zal aan de hand van twee voorbeelden illustreren wat er mis gaat en hoe groot de gevolgen zijn. En vervolgens aangeven, hoe het wel zou kunnen.

Dat doe ik aan de hand van de cijfers van de ziekenhuisopnames van gisteren. Besef daarbij dat het verloop van de ziekenhuisopnames door het RIVM wordt gebruikt om de ontwikkeling van de reproductiefactor in Nederland zo goed mogelijk te volgen. (Over de belabberde data van het RIVM had ik dit blog al eerder geschreven).

Alle drie mogelijke data-reeksen om de ontwikkeling van Covid-19 in Nederland te volgen hebben hun eigen problemen:

Aantal geconstateerde besmettingen is volledig afhankelijk van het aantal testen dat uitgevoerd.
Overlijdensgevallen, zijn enerzijds niet compleet vast te stellen, omdat er mensen overlijden die niet getest zijn, de informatie van het CBS over de oversterfte laat beschikbaar komt en ook niet precies vaststelbaar is, wie aan Covid-19 is overleden en wie niet.
Ziekenhuisopnames hebben van de drie mogelijke indicatoren de minste problemen. Maar dan is het wel nodig dat die data goed en consequent worden bijgehouden.

Met dat laatste is helaas veel mis, wat aan de hand van de cijfers van gisteren kan worden geïllustreerd:

RIVM meldde gisteren dat er 11 nieuwe ziekenhuisopnames zijn binnengekomen in de afgelopen 24 uur. Maar dat betekent niet dat dit ziekenhuisopnames betreft die ook fysiek in de afgelopen 24 uur hebben plaatsgevonden. Dat kan je zien in deze grafiek:

Zo zouden RIVM en GGD data moeten laten spreken - 7280

Terwijl het RIVM 11 “nieuwe” ziekenhuisopnames meldde, was het er eentje van 15 maart, eentje van 5 mei, eentje van 24 mei, eentje van 4 juni en 5 van de afgelopen week. Dit zijn er in totaal 9, dus van 2 is de datum (nog) niet bekend. (Van de circa 12.000 ziekenhuisopnames die gemeld zijn sinds maart zijn van bijna 600 nog geen datum bekend)

Een betere illustratie van de dramatische kwaliteit van de data kan niet gegeven worden. De 25 GGD ’s zijn verantwoordelijk voor de aanlevering van die data. En zelfs met nog maar weinig ziekenhuisopnames per dag, zijn ze niet actueel, ontbreekt er data, en duiken er nog ziekenhuisopnames op van meer dan twee maanden geleden.

Terwijl deze data van groot belang is om de ontwikkeling van de verspreiding van het virus zo goed mogelijk te volgen, heeft men bij VWS, RIVM en de GGD, nog steeds geen maatregelen genomen om deze data wel up-to-date te krijgen. En dat geeft ernstig te denken over de kwaliteit van de andere werkzaamheden, die zich volledig aan de mogelijkheid onttrekken om die te beoordelen.

Onzekerheid

Om de reproductiefactor te kunnen presenteren heeft modelleur Prof. Wallinga voorzieningen getroffen om inschattingen te maken over de ontbrekende data, maar dat betekent -zeker als de aantallen kleiner worden en we scherp moeten zijn om abrupte stijgingen te onderkennen-, dat er onzekerheid op onzekerheid wordt gestapeld.

Een tweede dramatische consequentie van het bovenstaande zien we, als we naar de actuele kaart kijken van de ziekenhuisopnames per gemeente.

Zo zouden RIVM en GGD data moeten laten spreken - 7281

Dit betreft dus de weektoename per gemeente per 100.000 inwoners. Vanuit de tabellen van die ziekenhuisopnames per dag is te zien in welke 11 gemeenten de ziekenhuisopnames plaatvonden. Dat zijn 9 gemeentes (in Utrecht en Amsterdam waren het er 2). Die 9 gemeenten zijn ook op dee grafiek te herkennen.

Maar daar zitten dus 4 ziekenhuisopnames in van langer dan 1 week geleden (en dus 1 zelfs meer dan 2 maanden geleden) en van 2 weten we de datum niet eens.

In welke van die 9 gemeenten deze 6 oude of onbekende ziekenhuisopnames waren, is niet bekend. Of althans wordt daar op de kaart geen rekening mee gehouden.

Zegt totaal niets

Dus terwijl je denkt dat je kijkt naar een overzicht van gemeenten waar de laatste week wel of geen ziekenhuisopnames waren, kijk je naar een kaart, die eigenlijk totaal niets zegt. Want de gele kleuren kunnen ziekenhuisopnames betreffen uit het verleden. En de witte kleuren kunnen gemeentes zijn, waarvan je denkt dat ze geen ziekenhuisopnames hadden deze week, maar waarvan over drie weken blijkt dat er toch een ziekenhuisopname was.

Dat je als RIVM deze data naar buiten brengt en in de afgelopen maanden geen maatregelen hebt genomen om te zorgen dat die data wel actueel is, laat zien dat men geen clou heeft over wat je met data kan en hoe je data kan laten spreken.

(En ook dat geeft te denken over de kwaliteit van het werk, wat wel totaal onzichtbaar blijft voor de buitenstaanders).

De gebruikers van deze informatie (beslissers en burgers) worden hiermee bewust of onbewust (dat laatste is misschien nog erger) op het verkeerde been gezet. Tot enkele weken geleden resenteerde het NOS-Journaal deze data ook op dagbasis, zonder enige relativering. “Het aantal nieuwe ziekenhuisopnames is X en dat is Y meer dan gisteren/vorige week”.

Dat het RIVM oude data nog aan haar bestanden wil toevoegen om de data uit het verleden toch nog wat accurater te maken is aan hen. (Al laat het wel de betrekkelijkheid zien van de berekende reproductiefactor). Maar als je data naar buiten brengt, blijkbaar om de besluitvormers en burgers te informeren over de ontwikkelingen van dit virus, dan horen ze andere keuzes te maken.

Zo is er nog wel wat van te maken

Als ik het voor het zeggen zou hebben bij het RIVM en ik zou niet in staat zijn om die 25 GGD ‘s zover te krijgen dat ze met goede data komen, dan heb ik twee mogelijkheden:

Ik neem ontslag of ik weiger data te gebruiken die zo slecht en achterhaald is. En verkondig dat ook bij ieder interview dat ik geef.
Ik probeer een aanpak, die met deze slechte data, nog enigszins een beeld geeft van hoe zich de verspreiding van het virus voltrekt.

Dat doe ik bijvoorbeeld door:

Per dag alleen de ziekenhuisopnames te melden van de afgelopen 7 dagen. (En de oudere voeg ik wel toe aan mijn data en grafieken, maar maak ik niet expliciet bekend).
Bij alle ziekenhuisopnames een kleine vragenlijst af te laten nemen, waardoor je wat meer weet over de kenmerken van de mensen (geslacht, leeftijd, onderliggend lijden, beroep), en wanneer, waar en hoe ze de besmetting opgelopen hebben. Dan zou ik per week een overzicht maken van die data, die publiceren en vergelijken met die van de vorige weken.

En als ik dan toch bezig zou zijn, zou ik het volgende doen t.a.v. de dagelijkse testen die worden gedaan of mensen besmet zijn. Dat zijn er op dit moment ongeveer 7.000 per dag, waarvan rond de 1% met een positieve uitslag. Daarvan heb ik al gesteld dat een niet gering deel daarvan (of zelfs bijna allemaal) false positives zijn.

Bedenk dat er zich sinds 1 juni ongeveer 150.000 mensen hebben laten testen, waarvan meer dan 147.000 niet positief waren.

Aanpak

Juist omdat je ook met deze testen een indruk wilt krijgen hoe het virus zich verspreidt (neemt het af, neemt het toe, hoe zijn de ontwikkelingen per regio, zijn er specifieke uitbraken?) is de volgende aanpak noodzakelijk:

Als je die test wil laten afnemen dan dien je een korte vragenlijst in te vullen. Dat kan online, via je telefoon, zelfs op de plek waar de PCR-test plaats vindt.

Er is een scala aan software, waarmee je dit eenvoudig kunt doen.

Dit is een vragenlijst met vragen over de demografische kenmerken, beroep en locatie. Plus vragen over de reden van testen. En als men meldt dat men bepaalde symptomen heeft dan worden die vastgelegd, inclusief wanneer dat begon. Ten slotte wordt gevraagd als er sprake zou zijn van Corona, door wie men denkt besmet te zijn en waar.

Als de uitslagen van de test binnenkomen dan kan per positieve test beoordeeld worden of het heel waarschijnlijk is dat de persoon in kwestie inderdaad recentelijk met het virus besmet is geworden of niet. Plus dat er gekeken kan worden naar mensen, waarvan je op basis van de vragenlijst zou denken dat ze vrijwel zeker recentelijk zijn besmet.

Je moet dan twee dingen doen:

De mogelijke false positives krijgen een “Viability Test”. Het virus wordt op een celkweek gezet en daarbij kan dan vastgesteld worden of die persoon echt anderen zou kunnen besmetten.
De mogelijke false negatives krijgen een nieuwe test, omdat wellicht twee dagen later de uitslag wel positief wordt.

Die double check is niet voortdurend nodig. Als men na een paar weken goed door heeft hoe hoog de false positives zijn, dan zouden die tests beperkt kunnen blijven tot mensen, die wellicht tot een cluster van besmettingsgevallen behoren.

Elke week wordt een uitgebreide analyse gemaakt van het percentage echt vastgestelde positieve test-deelnemers in relatie tot de kenmerken die zijn vastgelegd. (Zoals geslacht, leeftijd, regio, beroep, symptomen, en mogelijk moment van besmetting). Eventueel ook specifieke informatie over de echte hotspot waar veel geteste personen vandaan komen.

Juist omdat het rond de 50.000 personen per week betreft, geeft dit een prima inzicht in de ontwikkeling van de verspreiding van het virus. Zeker als we weer in een situatie komen (en die kans is er zeker in het najaar) dat het virus zich sneller gaat verspreiden.

Het voordeel van deze aanpak is ook, dat er al voorbereidende werkzaamheden zijn gedaan t.a.v. het contactonderzoek. Ook iets waarvan de GGD tot nu toe de indruk wekt het kwalitatief voldoende onder de knie te hebben, zoals meerdere keren uit de media blijkt.

Ik vind dat alle verantwoordelijken, GGD, RIVM en VWS ernstig tekort schieten dat het bovenstaande niet allang gebeurt. En zeker nu ze zoveel belang hechten aan “het dashboard” wordt het tijd dat ze kennis nemen van een belangrijk principe uit de statistiek “het GIGO effect”. Garbage in, Garbage out. Dus als de data slecht is dan zullen de conclusies die je dan trekt ook slecht zijn.

Hopelijk gaan ze een keer gebruik maken van externe specialisten, die wel weten hoe je goed data verzamelt en die dan tot spreken krijgt.

U heeft zojuist gelezen: Zo zouden RIVM en GGD data moeten laten spreken.

Volg Maurice de Hond op Twitter | Facebook | LinkedIn | YouTube.

Mocht u ons werk ook met een kleine donatie financieel willen ondersteunen klik dan hier.