‘Effect size’ nader verklaard

Effectgrootte versus gestandaardiseerde effectgrootte

Klinische praktijk
Michiel R. de Boer
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2018;162:D3225
Abstract
Download PDF

Samenvatting

  • Onder artsen en onderzoekers bestaat de nodige verwarring over de betekenis van de Engelse term ‘effect size’.
  • Veel van de verwarring is terug te voeren op het door elkaar gebruiken van de termen ‘effect size’ (effectgrootte) en ‘standardized effect size’ (gestandaardiseerde effectgrootte).
  • Dit artikel gaat in op de betekenis van beide termen. Ook komt aan de orde voor welke doeleinden gestandaardiseerde effectgroottes gebruikt worden, en hoe zij in de klinische praktijk geïnterpreteerd kunnen worden.

artikel

De Engelse term ‘effect size’ wordt met grote regelmaat gebruikt in de medisch-wetenschappelijke literatuur. Onder artsen en onderzoekers bestaat echter de nodige verwarring over wat de term precies betekent. Veel van die verwarring is terug te voeren op het door elkaar gebruiken van de termen ‘effect size’ en ‘standardized effect size’. Letterlijk betekent de term ‘effect size’ in het Nederlands niets anders dan ‘effectgrootte’, oftewel de grootte van het effect als twee of meer groepen met elkaar vergeleken worden. De term ‘effect size’ kan dus slaan op een van de vele maten waarin we effectgroottes kunnen uitdrukken.

Spraakverwarring

Voorbeelden van effectmaten bij dichotome uitkomstmaten (ja of nee), zoals sterfte, genezing en verbetering, zijn de oddsratio, het relatief risico, het absoluut risicoverschil en de veelgebruikte inverse daarvan, de ‘number needed to treat’. Bij continue uitkomstmaten, zoals systolische bloeddruk of BMI, gebruiken we doorgaans het verschil in gemiddelden (‘mean difference’) of het gestandaardiseerde verschil in gemiddelden (‘standardized mean difference’). De laatstgenoemde effectmaat wordt in het Engels aangeduid met ‘standardized effect size’ en wordt door velen kortweg ‘effect size’ genoemd. Dit leidt tot verwarring.

Recent werd in dit tijdschrift bijvoorbeeld gesteld dat twee systematische reviews een ongeveer even grote werkzaamheid van antidepressiva vonden, met een effectgrootte van ongeveer 0,3 ten opzichte van placebo.1 De auteur doelt in feite op de gestandaardiseerde effectgrootte, maar dat is uit de tekst niet duidelijk op te maken.

Gestandaardiseerde effectgroottes

Bij een gestandaardiseerde effectgrootte wordt het gemiddelde verschil tussen twee groepen uitgedrukt in de standaarddeviatie (SD) van de uitkomst. Stel, we vinden in een gerandomiseerd onderzoek naar het effect van antidepressiva in vergelijking met placebo dat de interventiegroep na afloop van de studieduur gemiddeld 4 punten lager op de ‘Center for Epidemiologic Studies Depression scale’ (CES-D-schaal) scoort dan de placebogroep. De CES-D-schaal is een veelgebruikte schaal voor het meten van depressieve symptomen, met een bereik van 0-60 punten.2,3 We nemen aan dat de SD op de CES-D-schaal 8 punten bedraagt, oftewel het gemiddelde verschil van alle CES-D-waardes tot het gemiddelde is 8 punten.

Een andere manier om de SD te interpreteren is dat wanneer de CES-D-schaal normaal verdeeld is, ongeveer 68% van de waardes tussen het gemiddelde min 8 punten en het gemiddelde plus 8 punten ligt. Het gemiddelde verschil van -4 punten tussen interventie- en placebogroep met een SD van 8 punten betekent dat de gestandaardiseerde effectgrootte -0,5 bedraagt. Dit impliceert dus dat de interventiegroep een halve SD lager scoort op de CES-D-schaal dan de placebogroep. De effectgrootte is dus -4, terwijl de gestandaardiseerde effectgrootte -0,5 bedraagt.

Het nut van gestandaardiseerde effectgroottes

Weinigen van ons zullen direct een gevoel hebben bij een gestandaardiseerde effectgrootte, en dit roept de vraag op waarom ze überhaupt gebruikt worden. Om deze vraag te kunnen beantwoorden, gaan we terug naar het voorbeeld.

Stel, we willen het gevonden effect van de studie (een gemiddeld verschil van 4 punten op de CES-D-schaal) vergelijken met het effect van een ander gerandomiseerd onderzoek over hetzelfde onderwerp. In die hypothetische trial hebben de onderzoekers een gemiddeld verschil van 2 punten gevonden tussen de interventie- en placebogroep, maar nu op de ‘Geriatric depression scale’ (GDS-30-schaal).4 De GDS-30-schaal heeft een bereik van 0-30 punten, en omdat dit bereik anders is dan dat van de CES-D-schaal (0-60 punten) kunnen we de effectgroottes van beide trials niet goed met elkaar vergelijken. Dit kan echter wel door gestandaardiseerde effectgroottes te gebruiken.

Stel, de SD op de GDS-30-schaal bedraagt 5 punten, dan is de gestandaardiseerde effectgrootte in de tweede trial -0,4. We kunnen dan concluderen dat het effect van beide trials in dezelfde richting wijst (antidepressiva werken beter dan placebo), maar dat het effect in de eerste trial een klein beetje sterker is.

Het bovenstaande voorbeeld laat zien dat we gestandaardiseerde effectgroottes dus gebruiken wanneer we effecten op verschillende schalen met elkaar willen vergelijken of combineren. Het gebruik van gestandaardiseerde effectgroottes zien we bijvoorbeeld vaak terug in systematische reviews en meta-analyses als verschillende meetinstrumenten zijn gehanteerd. Bij uitkomstmaten als systolische bloeddruk of BMI kunnen we ‘gewone’ effectgroottes gebruiken, aangezien deze altijd op dezelfde manier worden uitgedrukt (respectievelijk in mmHg en BMI-punten).

Dagelijkse praktijk

Omdat gestandaardiseerde effectgroottes lastig te interpreteren zijn, zijn hiervoor richtlijnen opgesteld. De bekendste en meest gebruikte richtlijnen komen van Jacob Cohen (1923-1998).5 Hij stelde voor een gestandaardiseerde effectgrootte van 0,2 als een ‘klein’ effect te beschouwen, 0,5 als ‘middelgroot’ en 0,8 als ‘groot’. Zoals Cohen zelf ook aangegeven heeft, zijn deze afkappunten enigszins arbitrair, maar ze bieden wel enige houvast voor de dagelijkse praktijk. Zo kunnen we op basis van deze richtlijn waarschijnlijk wel concluderen dat de gestandaardiseerde effecten van -0,5 en -0,4 middelgroot zijn en dat deze weinig van elkaar verschillen.

Het is echter belangrijk dat we ons realiseren dat voor zowel gestandaardiseerde als ‘gewone’ effectgroottes geldt dat de relevantie van een bepaalde effectgrootte sterk afhangt van de aard van het effect en van de ernst van de aandoening. Uiteraard spelen ook aspecten als de kosten en de bijwerkingen van de interventies een rol bij de interpretatie en bij de uiteindelijke beslissing om een interventie wel of niet toe te passen in de dagelijkse praktijk.

Literatuur
  1. Vinkers CH. Effectiviteit van antidepressiva. Ned Tijdschr Geneeskd. 2018;162:D2846 Medline.

  2. Radloff LS. The CES-D Scale: a self-report depression scale for research in the general population. Appl Psychol Meas. 1977;1:385-401. doi:10.1177/014662167700100306.

  3. Haringsma R, Engels GI, Beekman ATF, Spinhoven P. The criterion validity of the Center for Epidemiological Studies Depression Scale (CES-D) in a sample of self-referred elders with depressive symptomatology. Int J Geriatr Psychiatry. 2004;19:558-63. doi:10.1002/gps.1130Medline

  4. Yesavage JA, Brink TL, Rose TL, et al. Development and validation of a geriatric depression screening scale: a preliminary report. J Psychiatr Res. 1982-1983;17:37-49. doi:10.1016/0022-3956(82)90033-4Medline

  5. Cohen J. Statistical power analysis for the behavioral sciences. 2nd ed. Abingdon: Routledge; 1988.

Auteursinformatie

Contact Vrije Universiteit Amsterdam, afd. Gezondheidswetenschappen: dr. M.R. de Boer, epidemioloog (m.r.de.boer@vu.nl)

Belangenverstrengeling

Belangenconflict en financiële ondersteuning: geen gemeld.

Verantwoording

Prof.dr. Maurits van Tulder, epidemioloog (Amsterdam Public Health research institute, afd. Gezondheidswetenschappen), gaf commentaar op een eerdere versie van het manuscript.

Auteur Belangenverstrengeling
Michiel R. de Boer ICMJE-formulier
Dit artikel is gepubliceerd in het dossier
Methodologie van onderzoek
Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties

JWG (Hans)
Jacobs

U schrijft: We nemen aan dat de SD op de CES-D-schaal 8 punten bedraagt, oftewel het gemiddelde verschil van alle CES-D-waardes tot het gemiddelde is 8 punten.

Moet dat niet zijn:

We nemen aan dat de SD op de CES-D-schaal 8 punten bedraagt, oftewel de wortel van het gemiddelde verschil van alle CES-D-waardes tot het gemiddelde is 8 punten

J.W.G. (Hans) Jacobs, reumatoloog, UMC Utrecht