Samenvatting
- Het gebruik van p-waarden en statistische significantie zorgt vaak voor onterechte conclusies uit medische onderzoeksresultaten.
- Enerzijds is een statistisch significante uitkomst van een onderzoek niet altijd klinisch relevant. Anderzijds wordt een klinisch relevant resultaat vaak terzijde geschoven vanwege een niet significante p-waarde.
- De oorzaak van deze onjuiste interpretaties is dat een p-waarde veelal ten onrechte wordt gezien als maat voor relevantie, validiteit en precisie van onderzoeksresultaten.
- In werkelijkheid echter geeft een p-waarde alleen informatie over precisie.
- Bovendien bestaat er in de vorm van betrouwbaarheidsintervallen een betere manier om de precisie van een onderzoek in kaart te brengen.
- Het is dan ook belangrijk dat zowel de redacties van medische tijdschriften als auteurs afzien van het gebruik van p-waarden en de voorkeur geven aan betrouwbaarheidsintervallen.
(Geen onderwerp)
Groningen, januari 2001,
Sonke en Rovers bevelen terecht het gebruik van betrouwbaarheidsintervallen aan (2001:74-7). Bij het berekenen van het betrouwbaarheidsinterval vermelden zij niet de gemaakte veronderstelling en de daarvoor benodigde getalsbewerkingen. Zij schrijven: ‘Het 95%-BI wordt berekend met de formule: X ± 1,96 × SE, waarbij X staat voor het gemiddelde, de OR enzovoort.’ [95%-BI = 95%-betrouwbaarheidsinterval; SE = ‘standard error’; OR = oddsratio.] Aangezien niets wordt verondersteld over de verdeling van de getallen is de factor 1,96 onjuist. Met de ongelijkheid van Tchebyscheff kan de kans worden bepaald dat een getal binnen het betrouwbaarheidsinterval ligt.1 Als m het aantal standaarddeviaties is tussen het gemiddelde en de grens van het betrouwbaarheidsinterval en m > 1, is de kans 1 - 1/m2 dat een getal binnen het betrouwbaarheidsinterval ligt. Als we uitgaan van een kans van 0,95 geeft dit voor m een waarde van 4,47. De formule van de schrijvers wordt dan: X ± 4,47 × SE. Aangezien de ongelijkheid van Tchebyscheff vaak een zeer conservatieve schatting is, lijkt het praktische belang van de formule beperkt. Op soortgelijke wijze kan via de ongelijkheid van Camp en Meidell1 aangetoond worden dat voor eentoppige symmetrische verdelingen geldt: X ± 2,98 × SE. Als we uitgaan van de veronderstelling van een normale verdeling van getallen komen we wel op de door de schrijvers genoemde formule uit. Echter, het betrouwbaarheidsinterval van de OR kan niet met de formule berekend worden. Wel kan het betrouwbaarheidsinterval van log(OR) berekend worden via de formule van de auteurs.2 De zin had beter anders geformuleerd kunnen worden: ‘Onder de veronderstelling van een normale verdeling wordt het 95%-BI berekend met de formule: X ± 1,96 × SE, waarbij X staat voor de zo nodig voor normaliteit getransformeerde waarde van het gemiddelde, de OR enzovoort.’
Een betrouwbaarheidsinterval is alleen zinvol te beoordelen als van de juiste verdeling gebruik is gemaakt. Voor de normale verdeling zijn verschillende tests beschikbaar, onder andere de test van Shapiro-Wilk, die van Shapiro-Francia en een normaliteitsplot.3 De laatste twee kunnen eenvoudig worden uitgevoerd met de calculator die in de hoogste klassen van het middelbaar onderwijs gebruikt wordt.4 5
Jonge H de. Inleiding tot de medische statistiek. 2e dr. Leiden: Nederlands Instituut voor Praeventieve Geneeskunde; 1963. p. 104.
Houwelingen JC van, Stijnen Th, Strik R van. Inleiding tot de medische statistiek. 2e dr. Maarssen: Bunge; 1995. p. 255-60.
Altman DG. Practical statistics for medical research. Londen: Chapman & Hall; 1998. p. 291-2.
T183 Plus grafische rekenmachine. Handleiding. Amstelveen: Texas Instruments; 1999.
T183 Grafische rekenmachine. Handleiding. Amstelveen: Texas Instruments; 1996.
(Geen onderwerp)
Amstelveen, januari 2001,
De serie ‘Dwalingen in de methodologie’ is een duidelijke en bruikbare uiteenzetting over nut en onnut van epidemiologische technieken voor de medicus practicus, waar elke arts en met name elke arts-onderzoeker kennis van zou moeten nemen. Steeds opnieuw blijkt dat de epidemiologie een belangrijke ondersteunende discipline is voor het klinisch-wetenschappelijk onderzoek. Elke keer wordt duidelijk dat de epidemiologie meer vergelijkingskunst is dan vergelijkingskunde - uiteraard, omdat de basis van de epidemiologie, de statistiek, geen exacte wetenschap is, maar uitgaat van soms discutabele aannamen (en dan vooral van de normale verdeling van kenmerken). Mathematisch is niet te bewijzen dat het gebruik van bijvoorbeeld een p-waarde beter is dan dat van een betrouwbaarheidsinterval of omgekeerd. De keuze voor de ene of de andere methode is voor een veel groter deel afhankelijk van de heersende mode. Belangrijker dan die keuze is dat verschillen of overeenkomsten tussen de onderzochte groepen beredeneerd vergeleken worden. Dan maakt de keuze voor p-waarde of betrouwbaarheidsinterval over het algemeen niet zo heel veel uit, zoals ook uit deel XXIX van ‘Dwalingen in de methodologie’ (2001:74-7) duidelijk wordt. Helaas blijkt het geloof van de schrijvers in de epidemiologie inmiddels zo ver te gaan dat zij de wetenschap verder laten voor wat die is, en het volgende beweren: ‘Zo zal niemand tegenwoordig nog enig geloof hechten aan een onderzoek waarin aangetoond wordt dat longkanker geen verband houdt met roken.’ Dat kan natuurlijk niet. De essentie van wetenschap is de mogelijkheid van falsificatie. Als er overtuigend nieuw epidemiologisch en fysiologisch bewijs is dat longkanker niet door roken wordt veroorzaakt, zullen wetenschappers, ook wetenschappelijk ingestelde epidemiologen, dat aannemen.
Overigens: schrijver dezes heeft geen financieel of ander belang in de tabaksindustrie.
(Geen onderwerp)
Nijmegen, februari 2001,
Collega Abràmoff stelt terecht dat indien overtuigend epidemiologisch en fysiologisch bewijs beschikbaar komt dat roken niet door longkanker wordt veroorzaakt, wetenschappers dat zullen aannemen. Met de zinsnede: ‘Zo zal niemand tegenwoordig nog enig geloof hechten aan een onderzoek waarin aangetoond wordt dat longkanker geen verband houdt met roken’ wilden wij aangeven dat de kans op een overtuigend ontkrachtend bewijs in dit geval erg klein is. Wetenschappers (en niet-wetenschappers) zullen zich erg moeilijk laten overtuigen van een eventuele afwezigheid van de relatie tussen roken en longkanker. Zij zullen hun geloof in deze theorie niet opgeven naar aanleiding van één enkel nieuw onderzoek. Veel meer zullen zij zich laten leiden door de talloze voorgaande onderzoeken waarin de schade van roken wel wordt aangetoond, en door hun kennis van fysiologie en pathologie.
In de (bio)statistiek bestaat een methode die rekening houdt met het vooraf bestaande geloof in een theorie. Deze benadering staat bekend als de methode van Bayes. Het voordeel van deze methode is dat die de kans bepaalt dat de theorie waar is op basis van het vooraf bestaande geloof in een te onderzoeken theorie in combinatie met nieuwe onderzoeksgegevens. Met een klassieke statistische toets daarentegen kan men alleen een hypothese verwerpen. De methode van Bayes sluit daarom beter aan bij het handelen in de klinische praktijk. Het denken in termen van effectschattingen met betrouwbaarheidsintervallen is een goede stap in de richting van de methode van Bayes. Een effectschatting met het bijbehorende betrouwbaarheidsinterval geeft immers aan hoe groot het werkelijke effect kan zijn. Daardoor is het gebruik van betrouwbaarheidsintervallen wel degelijk te prefereren boven het gebruik van p-waarden.
Overigens zijn wij het niet eens met collega Abràmoff wanneer hij stelt dat statistiek de basis vormt van de epidemiologie. De basis van de epidemiologie is onzes inziens om op basis van onderzoek in een steekproef te komen tot valide effectschatters. De statistiek is vervolgens een hulpmiddel bij het interpreteren van deze effectschatters.