artikel
Al tientallen jaren verguisd in de medische literatuur, maar niet kapot te krijgen: de p-waarde. Al in 1989 schreef de bekende statisticus Rümke in het NTvG waarom medische tijdschriften de voorkeur geven aan een betrouwbaarheidsinterval boven de p-waarde als het om effectschattingen gaat (1989;133:2013-5). Daarna is in dit tijdschrift regelmatig geschreven over de onwenselijkheid van het gebruik van p-waarden, maar nog steeds worden ze graag gebruikt door de dokter. In de goede medische bladen zien we ze veel minder, maar in de populaire media is weinig terreinverlies te observeren. Het NTvG is een p-avers tijdschrift, al lukt het niet altijd om de p-waarde te weren. Voordat je weet staat ze er weer omdat we even niet opletten. Bovendien plaatsen wij nogal eens dubbelpublicaties en is het originele tijdschrift niet zo streng in de leer.
Deze week proberen we het opnieuw en laten Dekkers en Groenwold nog eens uitleggen waarom de bewijskracht van de p-waarde veel beperkter is dan men denkt (D2161). Zij betogen terecht dat andere aspecten van een onderzoek, zoals de kwaliteit en de klinische relevantie van een verschil, veel belangrijker zijn dan die p-waarde. Maar als de p-waarde niets zegt over de omvang en relevantie van effecten, waarom is ze dan nog steeds zo populair?
Met het slim – eigenlijk bedoel ik sluw – kiezen van de uitkomstmaat kun je kleine verschillen die statistisch significant zijn vaak goed slijten aan de medische bladen. Zijn het dan toch weer de wetenschappers en industrie die op deze manier hun resultaten oppoetsen en deze imposanter voordoen dan ze zijn? Dat komt zeker voor en deze mensen worden daarvoor nog steeds goed beloond. Met continue uitkomstmaten, zoals loopafstand, longvolume, VAS-score en allerlei schalen die ons welbevinden meten, krijg je in relatieve kleine studies mooie statistisch significante verschillen die klinisch echter volstrekt irrelevant kunnen zijn. Epidemiologen en statistici kunnen wel betogen dat de omvang van effecten veel belangrijker is dan de p-waarde, maar je moet van heel goeden huize komen om een studie met een belangrijk effect én een p-waarde > 0,05 te slijten.
Is die liefde voor de onuitroeibare p-waarde erg? Ja, want ze leidt tot eindeloos veel flutpublicaties die het niet zouden halen als naar de omvang van een klinisch relevante effectmaat werd gekeken. Leidt de patiënt hieronder? Steeds minder, omdat voor richtlijnen en toelating tot het basispakket steeds vaker het wetenschappelijke bewijs zorgvuldig wordt gewogen, en de selectie daarvan gebeurt gelukkig al lang niet meer op basis van de p.
Reacties