Enkele grondbegrippen uit de statistiek; VI. Statistische toetsing en de onbetrouwbaarheid van op grond daarvan getrokken conclusies

Klinische praktijk
Chr.L. Rümke
Citeer dit artikel als
Ned Tijdschr Geneeskd. 1988;132:1603-6
Download PDF

artikel

In een voorgaand artikel in deze reeks (zie bl. 1384) werd erop gewezen dat de statistiek als hulpwetenschap kan worden gebruikt bij de analyse van uitkomsten van wetenschappelijk onderzoek. De gedachtengang die ten grondslag ligt aan het uitvoeren van statistische technieken, zullen we nu in het kort uiteenzetten. Ook de onbetrouwbaarheid van met behulp daarvan getrokken conclusies zullen we nader bezien. Daarbij beperken we ons tot een bespreking van statistische toetsingen. Op de uitkomsten van berekeningen van betrouwbaarheidsintervallen is het gestelde van overeenkomstige toepassing.

In de eerste fase van het generaliseren van waarnemingen bij steekproeven tot conclusies over de onderzoekpopulatie heeft de toepassing van statistische technieken geen plaats. Bij het trekken van conclusies gebruikt men dan in de eerste plaats alle beschikbare kennis op het terrein waarover het onderzoek gaat. De eerder behandelde grondbegrippen populatie en steekproef geven steun bij het overzien van de reikwijdte van mogelijke generalisaties. Zuiverheid en vergelijkbaarheid van steekproeven zijn altijd vereist, ook wanneer statistische analyse achterwege kan blijven. Deze begrippen kunnen overigens zonder enige kennis van statistische toetsingstechnieken worden gehanteerd.

Meestal hebben onderzoekers de bedoeling de conclusies die een onderzoek oplevert, niet uitsluitend te betrekken op de onderzoekpopulatie, maar ook op een of meer daarmee overeenkomende andere populaties. Men zal bijvoorbeeld een voor een bepaalde populatie van thans in Nederland levende maagzweerlijders getrokken conclusie over het verschil tussen de kansen op een gunstig resultaat met twee verschillende behandelingsmethoden, ook willen betrekken op de populatie van toekomstige maagzweerlijders in Nederland, en op overeenkomstige populaties in omringende landen. Dergelijke ‘extrapolaties’ noodzaken tot een zorgvuldig nagaan of men werkelijk mag aannemen dat de onderzoekpopulatie voldoende overeenstemt met de bredere doelpopulatie die de onderzoekers in tweede instantie voor ogen staat. Ze kunnen verantwoord zijn indien het aannemelijk is dat deze andere populaties in relevante opzichten (bijvoorbeeld in leeftijdsopbouw en voedingsgewoonten) weinig of niet van de onderzoekpopulatie verschillen. Bij dit soort extrapolaties is echter altijd grote voorzichtigheid geboden!

Bij generalisaties die verder gaan dan de onderzoekpopulatie, speelt de statistiek geen rol. Wanneer wetenschappelijke argumenten ontbreken of te kort schieten, zal men aangewezen zijn op zijn gezonde verstand.

Eerst na deze eerste fase komt het te hulp roepen van statistische technieken in overweging. Dat is vooral wenselijk indien men niet zeker is of alleen reeds de alom tegenwoordige variabiliteit een afdoende verklaring zou kunnen vormen voor de waargenomen verschillen of andere effecten.

Statistische toetsing

Om de betekenis van met behulp van statistische technieken verkregen uitspraken toe te lichten gaan wij uit van een ‘ideale’ situatie. Op grond van theoretische overwegingen vermoedde men dat er voor twee verschillende behandelingsmethoden een verschil bestaat tussen de kansen om genezing te bereiken bij patiënten met een bepaalde aandoening. Om dit te onderzoeken werd uit een bepaalde onderzoekpopulatie een aselecte steekproef van patiënten getrokken. Vervolgens werden daaruit twee groepen patiënten gevormd door de twee behandelingen aselect binnen deze steekproef te verdelen. Het onderzoek werd daarna geheel volgens de regelen der kunst uitgevoerd. Na afloop werd voor het uitvoeren van een statistische toets als toetsingsgrootheid de waarde berekend van het verschil tussen de waargenomen percentages genezen patiënten in de beide groepen. Vervolgens werd de kans berekend dat men in het uitgevoerde onderzoek een verschil van de waargenomen grootte of een groter verschil zou kunnen vinden, indien de kansen op genezing na de beide behandelingen in werkelijkheid gelijk zouden zijn. Deze zouden dan uitsluitend een gevolg zijn van de alom aanwezige variabiliteit van patiënten en dergelijke. De genoemde kans is dus de kans dat men verschillen van een dergelijke grootte zou kunnen vinden indien de zogenaamde nulhypothese juist is. In de statistiek wordt deze kans de overschrijdingskans genoemd. Men duidt haar gewoonlijk aan met de letter p; vandaar dat sommigen spreken van de p-waarde die bij het waargenomen verschil behoort. Veronderstel dat in het geval van ons voorbeeld p = 0,02 is.

Wanneer men een statistische toets gaat uitvoeren, wordt expliciet of impliciet voor het begin van de uitvoering van de berekeningen de afspraak gemaakt dat men zal concluderen dat de nulhypothese onjuist is indien de voor p gevonden waarde klein is. Daarbij dient men dan vast te leggen welke waarden van p men inderdaad zo klein zal noemen, dat men deze slotsom over de nulhypothese trekt. De gekozen grenswaarde heet de onbetrouwbaarheidsdrempel van de uitgevoerde toets. In de praktijk kiest men uit conventie hiervoor meestal de waarde 0,05; wij komen hierop aanstonds terug.

Wanneer voor p inderdaad de waarde 0,05 of minder wordt gevonden, wordt als volgt geredeneerd: Indien de genezingskansen na de beide behandelingen in de onderzoekpopulatie werkelijk gelijk zouden zijn, is de kans op het vinden van het waargenomen verschil of een groter verschil op zijn hoogst één op twintig. Dan nemen wij maar aan dat deze genezingskansen inderdaad wèl verschillen. In dat geval wordt het waargenomen verschil significant genoemd. Daarmee wil men zeggen dat men op grond van de uitkomst van de statistische toetsing betekenis hecht aan het gevonden verschil.

Onjuiste conclusies

Wanneer bij het ontbreken van een reëel verschil tussen de twee genezingskansen slechts een kleine kans bestaat dat het gevonden verschil of een groter verschil wordt waargenomen, kan het toch zo zijn dat deze genezingskansen inderdaad niet verschillen. Wie bij een dergelijke kleine kans aanneemt dat de genezingskansen wèl verschillen, loopt daarom het risico dat hij een onjuiste conclusie trekt. Dat risico bestaat bij iedere conclusie op grond van het significant zijn van een verschil. Wie bij zijn wetenschappelijk onderzoek 0,05 als onbetrouwbaarheidsdrempel kiest, dient te beseffen dat hij op de lange duur bij niet minder dan één op de twintig van de door hem getoetste juiste nulhypotheses ten onrechte de conclusie zal trekken dat zij onjuist zijn; het predikaat significant zal hij dan aan het waargenomen verschil ten onrechte verlenen. Dat is de onbetrouwbaarheid van alle conclusies op grond van statistische toetsingen.

In het dagelijks leven komen ook gebeurtenissen met kleine kansen geregeld tot realisatie. Dat geldt ook voor het onjuist zijn van conclusies uit een onderzoek op grond van een statistische toetsing. Dat mag men nimmer uit het oog verliezen! Daarom dient men zich bij het vinden van een significant verschil steeds af te vragen of het bestaan van dit verschil plausibel is in het licht van de wetenschappelijke kennis die men op het onderzoekgebied heeft. Als deze plausibiliteit ontbreekt, moet de onderzoeker extra op zijn hoede zijn voor de mogelijkheid dat zijn conclusie onjuist is. In de als voorbeeld geschetste ‘ideale’ situatie zal dat vermoedelijk niet het geval zijn. Het onderzoek was immers opgezet om het bestaan van het gevonden verschil aan te tonen. In het in de statistische analyse significant zijn van het gevonden verschil ziet men het bewijs daarvan. Desondanks heeft ook dan het statistische bewijs van de aanwezigheid van dit verschil onontkoombaar een ingebouwde onzekerheid, die men ook onbetrouwbaarheid kan noemen.

Andere onbetrouwbaarheidsdrempels dan 0,05

In het voorgaande werd gesteld dat voor de onbetrouwbaarheidsdrempel meestal de waarde 0,05 wordt gekozen. Menigeen is door deze conventie de 0,05-grens gaan beschouwen als een soort heilige grens die op statistische gronden een bepaalde diepere betekenis heeft. Dat is echter niet het geval. Onderzoekers mogen in principe zelf uitmaken bij welke waarden van p zij de getoetste nulhypothese willen verwerpen en bij welke niet. Het ligt voor de hand dat de keus in de eerste plaats wordt bepaald door de gevolgen die een ten onrechte verwerpen van de nulhypothese zou kunnen hebben. Instinctief zou de neiging kunnen bestaan om als onbetrouwbaarheidsdrempel een veel lagere waarde dan 0,05 te kiezen, in de hoop daarmee de kans zo klein mogelijk te maken dat ten onrechte aan het gevonden verschil betekenis wordt toegekend. Het verlagen van de onbetrouwbaarheid van de toetsing maakt echter het aantonen van verschillen moeilijker. Het kan als gevolg hebben dat een in werkelijkheid bestaand verschil niet als zodanig wordt herkend. De kans daarop wordt groter naarmate men voor de onbetrouwbaarheidsdrempel een lagere waarde kiest. Daarom is de keus daarvan een compromis tussen het risico om ten onrechte aan te nemen dat de nulhypothese onjuist is (de zogenaamde fout van de eerste soort) en het risico om de onjuistheid daarvan te miskennen (de fout van de tweede soort). In bepaalde gevallen kan het beslist zin hebben het compromis dichter aan de ene of dichter aan de andere kant van de balans tussen beide te leggen. We kunnen echter vaststellen dat de gebruikelijke keus van 0,05 in de praktijk blijkbaar goed voldoet.

Men realisere zich dat het dus van de voor de onbetrouwbaarheidsdrempel gekozen waarde kan afhangen of een gevonden verschil significant wordt genoemd of niet. In het geval van ons voorbeeld veronderstelden wij dat de voor de overschrijdingskans p gevonden waarde 0,02 was. Dit betekent dat dit verschil significant zal worden genoemd bij de onbetrouwbaarheidsdrempel 0,05. Indien echter 0,01 als drempel was gekozen, zou dit verschil niet als significant zijn beschouwd. Daarom verdient het aanbeveling in het verslag van de statistische analyse van een onderzoek altijd de bij een toetsing voor de onbetrouwbaarheidsdrempel gekozen waarde op te geven. Wanneer men bij de uitkomst van iedere toetsing vermeldt welke waarde voor p werd gevonden, stelt men de lezer bovendien in staat eventueel vast te stellen of hij ook bij de drempel zijner keuze het gevonden effect als significant zou beschouwen.

Niet significant

Indien de voor p berekende waarde groter is dan 0,05, zegt men dat het getoetste verschil niet significant is. De conclusie is dan dat de uitkomst van het onderzoek onvoldoende bewijskracht heeft voor het bestaan van een verschil tussen de genezingskansen. Wanneer men bij de eerste beschouwing van de uitkomsten van het onderzoek in de grootte van het gevonden verschil al een bevestiging had gezien voor de juistheid van de veronderstelling dat de kansen op genezing voor de twee behandelingsmethoden verschilden, dan wordt men door de uitkomsten van de toetsing op de realiteit gedrukt: Alleen de altijd bestaande variabiliteit van de patiënten en hun mate van ziek zijn en ook de onvermijdelijke variabiliteit van waarnemingsuitkomsten kunnen het gevonden verschil afdoende verklaren.

Het niet significant zijn van het waargenomen verschil vormt echter geen bewijs dat er in werkelijkheid geen verschil tussen de genezingskansen bestaat! Misschien is het wel kleiner dan men vermoedde en zou de aanwezigheid daarvan in een groter onderzoek wèl kunnen worden aangetoond.

Statistische toetsen hebben voor velen iets ondoorgrondelijks. Misschien is dat wel de oorzaak van het feit dat de waarde van daarmee getrokken conclusies zo dikwijls wordt overschat. Door het uitvoeren van een toets kan men de onzekerheid over de betekenis van een gevonden verschil aanmerkelijk verkleinen indien men de statistische significantie daarvan kan vaststellen. Geheel tot verdwijning brengen kan men deze onzekerheid echter nooit. Iedere met behulp van statistische toetsen getrokken conclusie is met een hoeveelheid onzekerheid behept en bezit daardoor een zekere onbetrouwbaarheid! In de ideale situatie waarvan wij in het gegeven voorbeeld uitgingen, geeft de voor de overschrijdingskans p gevonden waarde een tamelijk exacte indruk van de mate van onbetrouwbaarheid waarmee men rekening moet houden.

Minder ideale situaties

Medisch-wetenschappelijk onderzoek is vrijwel nooit zo ideaal opgezet en uitgevoerd als in het gegeven voorbeeld (zie blz. 1575). Desondanks wordt daarbij dikwijls van statistische technieken gebruik gemaakt. Men moet zich daarom afvragen welke betekenis de uitkomsten van statistische berekeningen in dit soort situaties dan nog kunnen hebben.

Bij de uitvoering van iedere toetsing wordt bij het trekken van de conclusies uitgegaan van de veronderstelling dat de steekproeven uit de populatie waarop de conclusie betrekking zal hebben, aselect zijn. Uit onze vroegere beschouwingen bleek echter al dat in de praktijk bij medisch-wetenschappelijk onderzoek vrijwel nooit aan deze formele voorwaarde is voldaan. Bij de ogenschijnlijke objectiviteit van de statistische conclusie mag men niet uit het oog verliezen dat ze in veel gevallen mede berust op de subjectieve beslissing dat de steekproeven als aselect mogen worden beschouwd.

In ons ‘ideale’ voorbeeld zijn we uitgegaan van een situatie waarin voor het berekenen van de bij het gevonden verschil behorende overschrijdingskans nagenoeg geen veronderstellingen behoefden te worden gemaakt. In de praktijk is dat dikwijls wèl nodig. De voor de overschrijdingskans gevonden waarde is dan alleen juist indien de gemaakte veronderstellingen over de verdeling van de toetsingsgrootheid juist zijn. Meestal is dat moeilijk na te gaan. Hierdoor kan de voor de overschrijdingskans gevonden waarde – en daarmee de te trekken conclusie – als het ware in de lucht komen te hangen. Hetgeen over de onbetrouwbaarheid van statistische conclusies voor de ideale situatie werd gezegd, geldt in dit soort situaties dus in nog sterkere mate. Bij het trekken van conclusies zou men dan als richtlijn kunnen nemen: Indien het gevonden verschil niet significant is, is het reële bestaan daarvan onbewezen. Indien het wèl significant is, is de onzekerheid over de juistheid van de getrokken conclusie zeker groter dan in het ideale geval, ook indien de berekende waarde van p klein is. De overschrijdingskans zou immers in werkelijkheid veel groter kunnen zijn!

Wat overblijft – en dat is nog genoeg – is de mogelijkheid om het bestaan van mogelijke verschillen, relaties, etc. te signaleren, zonder dat daarbij aan de precieze uitkomsten van de berekeningen een te grote betekenis wordt gehecht. Hemelrijk sprak in een in dit verband nog steeds zeer lezenswaardige voordracht over de mogelijkheid tot detectie van verschillen naast de mogelijkheid tot het voeren van het bewijs daarvan. 1 In de ‘ideale’ situatie is de mogelijkheid tot bewijsvoering zo dicht mogelijk benaderd. In de overige gevallen maakt de statistische analyse het mogelijk het bestaan van verschillen op het spoor te komen (te detecteren), waarvan het bestaan dan vervolgens in een zo goed mogelijk opgezet onderzoek nog moet worden bewezen.

De vorige artikelen in deze reeks verschenen op bl. 1383, 1384, 1422, 1472, 1523 en 1575 van deze jaargang.

Literatuur
  1. Hemelrijk J. Statistische proefopzetten.Ned Tijdschr Geneeskd 1959; 103:381-8.

Auteursinformatie

Prof.dr.Chr.L.Rümke, oud-hoogleraar in de medische statistiek, De Ruyschlaan 207, 1181 PE Amstelveen.

Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties