Samenvatting
- De externe validiteit van therapeutisch onderzoek betreft de vraag naar welke patiënten, buiten de oorspronkelijke studiepopulatie, studieresultaten generaliseerbaar zijn.
- De inclusiecriteria van een studie geven een goede indicatie in hoeverre belangrijke kenmerken van nieuwe patiënten vergelijkbaar zijn met die van de studiepopulatie.
- Wanneer patiënten die geïncludeerd waren in het onderzoek niet representatief zijn voor de bronpopulatie, beperkt dit de externe validiteit.
- De externe validiteit kan tevens beperkt worden door aspecten van studies die niet in de inclusiecriteria tot uiting komen, zoals het behandelprotocol, het behandelcentrum of het land waar de studie werd uitgevoerd.
- In zeldzame gevallen omvat de externe validiteit patiënten die in het onderzoek zouden zijn geëxcludeerd.
Ned Tijdschr Geneeskd. 2007;151:2203-6
artikel
Therapeutisch onderzoek in de geneeskunde is onderzoek naar de werkzaamheid van therapeutische interventies. Dergelijk onderzoek hoort uiteindelijk relevante informatie op te leveren voor de patiëntenzorg. Idealiter is bij iedere wetenschappelijke publicatie over een behandeling duidelijk voor welke patiënten de studieresultaten geldig zijn. De vraag in hoeverre de studieresultaten generaliseerbaar zijn naar andere patiënten dan diegenen bij wie het onderzoek oorspronkelijk werd uitgevoerd, betreft de ‘externe validiteit’ van een onderzoek.1
Hoewel er door enkele auteurs wel aandacht aan wordt besteed,1 is de externe validiteit een aspect van onderzoek dat veelal onderbelicht blijft. Zo wordt in richtlijnen voor experimenteel onderzoek weinig aandacht besteed aan externe validiteit, speelt deze een beperkte rol bij de beoordeling van de studiekwaliteit en zijn er geen goede criteria om de externe validiteit van onderzoeksresultaten te beoordelen.2
Deze onderbelichting is toe te schrijven aan twee factoren. Ten eerste is onderzoek vaak gericht op het zo zuiver mogelijk schatten van het behandeleffect en veelal niet op de vraag of een interventie ook een positief effect heeft wanneer ze op grote schaal wordt toegepast. Ten tweede blijkt de externe validiteit bij nadere beschouwing complexer dan vermoed. Zo is het antwoord op de eenvoudige vraag of nieuwe patiënten in een specifiek onderzoek zouden zijn geïncludeerd of niet, niet synoniem met het antwoord op de vraag of de onderzoeksresultaten generaliseerbaar zijn naar deze patiënten.
In dit artikel bespreken wij een aantal aspecten van de externe validiteit van onderzoeksresultaten en gaan wij in op de vraag hoe de generaliseerbaarheid van therapeutisch onderzoek te beoordelen is.
interne validiteit en externe validiteit
Therapeutisch onderzoek wordt uitgevoerd binnen een studiepopulatie. Deze studiepopulatie is een selectie uit een bredere groep patiënten die aan de inclusiecriteria van de studie voldoen. Deze laatste groep wordt de bronpopulatie genoemd. De interne validiteit gaat over de vraag of de studieresultaten correct zijn voor de studiepopulatie. Een goede interne validiteit is een eerste vereiste voor een goede externe validiteit. Een studie kan een slechte interne validiteit hebben wanneer door ‘bias’ of ‘confounding’ therapeutische effecten vertekend zijn. Wanneer studieresultaten incorrect zijn, ontbreekt het fundament voor generaliseerbaarheid.
Om inzicht te krijgen in de externe validiteit zijn de inclusiecriteria, de exclusiecriteria en de behandelcontext van de oorspronkelijke studie van belang. De inclusie- en exclusiecriteria staan centraal bij het beoordelen of nieuwe patiënten voor wat betreft belangrijke kenmerken overeenkomen met de studiepopulatie. De behandelcontext is een aspect dat niet tot uitdrukking komt in de inclusiecriteria, maar dat desondanks van invloed is op de externe validiteit. Aspecten van de behandelcontext zijn onder andere onderzoeksprotocollen en lokale en geografische condities.
inclusiecriteria van onderzoek
De basis voor de externe validiteit van studieresultaten zijn de inclusiecriteria van de oorspronkelijke studie, waarmee een inschatting kan worden gemaakt of nieuwe patiënten voor wat betreft belangrijke kenmerken overeenkomen met de oorspronkelijke studiepopulatie. Gerandomiseerde gecontroleerde trials (RCT’s) kennen gemiddeld ongeveer 30 inclusie- en exclusiecriteria, die echter in de publicatie veelal niet compleet gemeld worden: in vergelijking met het volledige onderzoeksprotocol wordt in het gepubliceerde artikel slechts 63 van alle gehanteerde criteria vermeld.3 Dit maakt dat het gepubliceerde artikel niet altijd alle benodigde informatie geeft om de externe validiteit te kunnen beoordelen. Zelfs indien de methoden van een onderzoek apart worden gepubliceerd, zijn inclusie- en exclusiecriteria, in vergelijking met het studieprotocol, vaak niet compleet beschreven.3
Wanneer patiënten potentieel voldoen aan het profiel van de inclusiecriteria is dit echter geen garantie voor een goede externe validiteit. Onderzoek wordt uitgevoerd bij studiepopulaties, die, ondanks gehanteerde inclusiecriteria, niet in alle opzichten homogeen zijn. Studieresultaten worden vooral bepaald door de grootste subgroep, terwijl kleinere subgroepen minder gewicht in de schaal leggen. Dit betekent dat de resultaten die voor de gehele studiepopulatie gelden, niet zonder meer op kleine subpopulaties van toepassing zijn.
Van alle patiënten die aan de inclusiecriteria voldoen wordt soms minder dan 1 uiteindelijk in de studie geïncludeerd.2 Dit zou de externe validiteit niet beperken wanneer de studiepopulatie representatief zou zijn voor de bronpopulatie. Er kunnen echter verschillen bestaan tussen studie- en bronpopulatie voor wat betreft leeftijd, geslacht, ras, socio-economische klasse of comorbiditeit. Patiënten die geen toestemming geven voor onderzoek kunnen verschillen van de studiepopulatie met betrekking tot factoren die voor de prognose van belang zijn.4 In een vergelijking tussen patiënten met een acuut myocardinfarct die in een RCT werden geïncludeerd en patiënten die wél aan de inclusiecriteria voldeden, maar niet werden geïncludeerd, kwamen duidelijke verschillen tussen de twee groepen naar voren.5 Niet alleen waren de geïncludeerde patiënten jonger en hadden zij minder comorbiditeit, tijdens het ziektebeloop bleek tevens de sterfte in de studiepopulatie lager dan in de niet-geïncludeerde groep.
Daarnaast wordt in experimenteel onderzoek soms een aanloop(‘run-in’)-periode gehanteerd, die twee doelen dient. Ten eerste kan aan geïncludeerde patiënten gedurende een bepaalde periode een placebo worden voorgeschreven om de therapietrouw van de patiënt te beoordelen. Patiënten met een slechte therapietrouw kunnen dan alsnog worden geëxcludeerd. In een recent onderzoek naar het mogelijk preventief effect van ramipril op het ontstaan van diabetes mellitus werd tijdens de run-inperiode van 17 dagen nog 10 van de patiënten geëxcludeerd.6 Ten tweede kan de run-inperiode worden gebruikt om patiënten te excluderen die slecht op de onderzoeksmedicatie reageren. Hiertoe wordt aan geïncludeerde patiënten gedurende een bepaalde periode de studiemedicatie gegeven, om bij een duidelijk negatief effect patiënten alsnog te excluderen. In een grote studie naar het effect van carvedilol op de morbiditeit en de sterfte bij patiënten met chronisch hartfalen werd tijdens een run-inperiode 6 van de patiënten alsnog geëxcludeerd wegens progressief hartfalen of overlijden.7 De run-inperiode leidt tot een verminderde externe validiteit, doordat de studiepopulatie niet meer representatief is voor de bronpopulatie.
de behandelcontext
Een ander aspect van onderzoek dat de externe validiteit kan bepalen is de context van behandeling. Studies worden uitgevoerd in bepaalde ziekenhuizen, door bepaalde artsen en in één of soms meerdere landen; al deze aspecten van het onderzoek zijn medebepalend voor de resultaten.
Er kunnen verschillen tussen ziekenhuizen bestaan die van invloed kunnen zijn op de studieresultaten. Indien onderzoeken plaatsvinden in academische centra is de vraag in hoeverre deze resultaten generaliseerbaar zijn naar patiënten uit niet-academische centra. De beperking van onderzoek tot academische centra kan zowel een overschatting alsook een onderschatting van het behandeleffect geven. Een overschatting kan optreden wanneer een specifieke expertise van invloed is op de uitkomstmaat. Dit is bijvoorbeeld het geval bij hypofyseoperaties, waarbij de resultaten afhankelijk zijn van de expertise van zowel het behandelcentrum als van de chirurg.8 Een onderschatting van het behandeleffect kan daarentegen optreden wanneer in een bepaald academisch centrum meer patiënten met complexe problematiek behandeld worden.
Patiënten uit verschillende landen kunnen verschillen voor wat betreft genetische kenmerken, omgevingsfactoren of leefgewoonten. Wanneer in de Verenigde Staten onderzoek wordt gedaan naar de effecten van antibiotische therapie, zullen deze resultaten wellicht niet naar Nederlandse patiënten generaliseerbaar zijn, omdat er een verschil in resistentiepatronen tussen verschillende landen kan bestaan.
exclusiecriteria van onderzoek
Op het eerste gezicht lijken de exclusiecriteria van een bepaalde studie geschikt om de grenzen van de externe validiteit te bepalen. Immers, de onderzoeksresultaten gelden zeker niet voor patiënten die niet in het onderzoek zouden hebben gemogen. Het nadeel hiervan is dat studieresultaten vervolgens niet meer toepasbaar zijn op een groot deel van de patiënten uit de dagelijkse praktijk. Zo worden ouderen en patiënten met comorbiditeit veelal uit studies geëxcludeerd. In onderzoeken naar medicamenteuze interventie voor een myocardinfarct wordt in 60 van de studies een leeftijdsgrens van 75 jaar gehanteerd.9 Bijna 65 van de patiënten die in de dagelijkse praktijk in aanmerking komt voor een cardiale revascularisatieprocedure, zou in RCT’s naar de effecten van revascularisatieprocedures zijn geëxcludeerd, op grond van leeftijd, comorbiditeit en ziektespecifieke kenmerken.10 De vraag is of studieresultaten toch gegeneraliseerd kunnen worden naar patiënten die formeel aan de exclusiecriteria van de betreffende studie voldoen.
Een voorbeeld uit etiologisch onderzoek kan dit verduidelijken. In de jaren vijftig en zestig van de vorige eeuw onderzochten Doll en Hill de relatie tussen roken en longkanker bij 59.600 artsen. De studie toonde aan dat rokers een 12 keer zo hoge kans hadden om aan longkanker te overlijden als niet-rokers.11 Hoewel notarissen en voetballers niet in deze studie vertegenwoordigd zijn, lijkt er weinig twijfel dat de studieresultaten toch ook naar deze beroepsgroepen generaliseerbaar zijn. De reden hiervan is tweeledig: ten eerste is de relatie tussen roken en longkanker in ander onderzoek ook aangetoond voor niet-artsen. Ten tweede is er geen reden om aan te nemen dat het effect van roken op de longen van artsen anders zou zijn dan het effect van roken op de longen van notarissen of voetballers. Op grond van biologische plausibiliteit zijn wij in dit geval geneigd om de externe validiteit van studieresultaten uit te breiden naar patiënten die in strikte zin zouden zijn geexcludeerd.
Wanneer in een studie naar het effect van cardiale medicatie patiënten met maagklachten worden geëxcludeerd, zijn de studieresultaten niet toepasbaar op patiëntengroepen met recent ulcuslijden. Maar anderzijds is moeilijk in te zien dat de resultaten van studies waarbij patiënten ouder dan 75 jaar zijn geëxcludeerd, niet generaliseerbaar zijn naar 76-jarige patiënten. De reden hiervoor is dat biologische mechanismen die een middel werkzaam maken bij een 75-jarige, ook werkzaam zullen zijn bij iemand die zijn 76e verjaardag viert. Deze voorbeelden geven aan dat, hoewel in principe de exclusiecriteria de grenzen bepalen van de externe validiteit, studieresultaten in uitzonderingsgevallen toch generaliseerbaar zijn naar patiënten die bij het onderzoek zouden zijn uitgesloten.
generaliseerbaarheid en toepasbaarheid
Wanneer studieresultaten generaliseerbaar zijn naar bepaalde patiëntenpopulaties, betekent dit niet zonder meer dat het beoogde behandeleffect in de nieuwe populaties hetzelfde zal zijn als in de studiepopulatie. Dit heeft ook te maken met de vraag of behandelprotocollen die gehanteerd worden tijdens het onderzoek afwijken van die in de routinematige patiëntenzorg. Met andere woorden: generaliseerbaarheid betekent nog niet toepasbaarheid. Veelal worden patiënten tijdens onderzoek frequenter gecontroleerd dan tijdens de routinepatiëntenzorg. Hierdoor kunnen bijwerkingen eerder aan het licht komen en komt de patiënt frequenter in contact met behandelend artsen. Frequenter arts-patiëntcontact gaat gepaard met een betere therapietrouw.12 In een RCT naar de effecten van spironolacton bij patiënten met hartfalen bleek een gunstig effect op morbiditeit en sterfte.13 Hyperkaliëmie, een bijwerking van spironolacton, werd bij 2 van de studiepopulatie gevonden. Behandelgegevens van patiënten met hartfalen uit de dagelijkse praktijk toonden echter hogere percentages hyperkaliëmie na behandeling met spironolacton. Geschat werd dat het voorschrijven van spironolacton aan patiënten met hartfalen leidt tot 5 opnamen wegens ernstige hyperkaliëmie.14 Ook kan de toepasbaarheid van onderzoek beperkt worden door de infrastructuur van de gezondheidszorg. Wanneer in derdewereldlanden de infrastructuur voor bepaalde therapeutische interventies ontbreekt, mag een therapeutische interventie generaliseerbaar zijn, toepasbaar is ze niet.
wetenschappelijk onderzoek en de individuele patiëntenzorg
Therapeutisch onderzoek hanteert strikte in- en exclusiecriteria aan de hand waarvan studiepatiënten kunnen worden geselecteerd. Het kiezen van geselecteerde populaties kan gevolgen hebben voor de externe validiteit. Bij een steekproef onder patiënten met astma bleek dat slechts 4-6 van de astmapatiënten zou voldoen aan de inclusiecriteria van tenminste 1 van de 17 RCT’s naar behandeleffecten bij astmapatiënten.15 Eenzelfde laag percentage kwam naar voren bij een vergelijkbaar onderzoek naar patiënten met chronische obstructieve longziekte (COPD).16 Dit geeft aan dat onderzoeksresultaten niet zonder meer naar de overgrote meerderheid van de patiënten uit de dagelijkse praktijk generaliseerbaar zijn.
Voor alle nieuwe patiënten na de studie zal moeten worden beoordeeld of onderzoeksresultaten naar hen generaliseerbaar zijn. Voor deze beoordeling staan twee vragen centraal. Ten eerste de vraag of de belangrijke kenmerken van de nieuwe patiënten vergelijkbaar zijn met die van de oorspronkelijke studiepopulatie. Ten tweede of de actuele behandelcontext vergelijkbaar is met de behandelcontext van het betreffende onderzoek. Indien beide vragen positief kunnen worden beantwoord, is het aannemelijk dat de studieresultaten van toepassing zijn op de betreffende patiëntenpopulatie. Desondanks blijft de mogelijkheid open dat de externe validiteit in sommige gevallen patiënten omvat die in het onderzoek zouden zijn geëxcludeerd, en – omgekeerd – dat de externe validiteit toch beperkter is dan de inclusiecriteria van de oorspronkelijke studie lijken aan te geven.
Belangenconflict: geen gemeld. Financiële ondersteuning: geen gemeld.
Literatuur
How to use the evidence: assessment and application of scientific evidence. Canberra: National Health and Medical Research Council; 2000.
Rothwell PM. External validity of randomised controlled trials: ‘to whom do the results of this trial apply?’ Lancet. 2005;365:82-93.
Shapiro SH, Weijer C, Freedman B. Reporting the study populations of clinical trials. Clear transmission or static on the line? J Clin Epidemiol. 2000;53:973-9.
Buckley B, Murphy AW, Byrne M, Glynn L. Selection bias resulting from the requirement for prior consent in observational research: a community cohort of people with ischaemic heart disease. Heart. 2007;May 13 onlinetijdschrift.
Steg PG, Lopéz-Sendón J, Lopez de Sa E, Goodman SG, Gore JM, Anderson jr FA, et al. External validity of clinical trials in acute myocardial infarction. GRACE Investigators. Arch Intern Med. 2007;167:68-73.
Bosch J, Yusuf S, Gerstein HC, Pogue J, Sheridan P, Dagenais G, et al. Effect of ramipril on the incidence of diabetes. DREAM Trial Investigators. N Engl J Med. 2006;355:1551-62.
Packer M, Bristow MR, Cohn JN, Colucci WS, Fowler MB, Gilbert EM, et al. The effect of carvedilol on morbidity and mortality in patients with chronic heart failure. U.S. Carvedilol Heart Failure Study Group. N Engl J Med. 1996;334:1349-55.
Barker FG, Klibanski A, Swearingen B. Transsphenoidal surgery for pituitary tumors in the United States, 1996-2000: mortality, morbidity, and the effects of hospital and surgeon volume. J Clin Endocrinol Metab. 2003;88:4709-19.
Gurwitz JH, Col NF, Avorn J. The exclusion of the elderly and women from clinical trials in acute myocardial infarction. JAMA. 1992;268:1417-22.
Hordijk-Trion M, Lenzen M, Wijns W, Jaegere P de, Simoons ML, Scholte op Reimer WJ, et al. Patients enrolled in coronary intervention trials are not representative of patients in clinical practice: results from the Euro Heart Survey on Coronary Revascularization. EHS-CR Investigators. Eur Heart J. 2006;27:671-8.
Doll R, Hill AB. Lung cancer and other causes of death in relation to smoking; a second report on the mortality of British doctors. Br Med J. 1956;2(5001):1071-81.
Blackburn DF, Dobson RT, Blackburn JL, Wilson TW, Stang MR, Semchuk WM. Adherence to statins, beta-blockers and angiotensin-converting enzyme inhibitors following a first cardiovascular event: a retrospective cohort study. Can J Cardiol. 2005;21:485-8.
Pitt B, Zannad F, Remme WJ, Cody R, Castaigne A, Perez A, et al. The effect of spironolactone on morbidity and mortality in patients with severe heart failure. Randomized Aldactone Evaluation Study Investigators. N Engl J Med. 1999;341:709-17.
Juurlink DN, Mamdani MM, Lee DS, Kopp A, Austin PC, Laupacis A, et al. Rates of hyperkalemia after publication of the Randomized aldactone evaluation study. N Engl J Med. 2004;351:543-51.
Travers J, Marsh S, Williams M, Weatherall M, Caldwell B, Shirtcliffe P, et al. External validity of randomised controlled trials in asthma: to whom do the results of the trials apply? Thorax. 2007;62:219-23.
Travers J, Marsh S, Caldwell B, Williams M, Aldington S, Weatherall M, et al. External validity of randomized controlled trials in COPD. Respir Med. 2007;101:1313-20.
Reacties