Dwalingen in de methodologie. XXXIV. Predictiemodellen stellen vaak teleur

Klinische praktijk
M. Visser
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2001;145:1109-12
Abstract

Samenvatting

- Predictiemodellen zijn goed bruikbaar in de populatie waarin ze zijn ontwikkeld, maar stellen vaak teleur wanneer ze worden toegepast op een andere populatie.

- De belangrijkste oorzaak voor de teleurstellende resultaten is dat predictiemodellen vaak worden ontwikkeld en geëvalueerd binnen eenzelfde populatie. Vaak worden te veel predictoren in het model opgenomen (of wordt een te kleine populatie gebruikt), wat de kans op zogenaamde ‘overfitting’ vergroot.

- Zowel externe als interne validatietechnieken zijn beschikbaar voor het evalueren van een predictiemodel. De zwaarste test is de externe validatie, waarbij het model wordt toegepast op een nieuwe populatie.

- De bruikbaarheid van een predictiemodel kan worden geevalueerd met behulp van de ‘receiver operating characteristic’(ROC)-curve.

Auteursinformatie

Vrije Universiteit, faculteit der Geneeskunde, Instituut voor Extramuraal Geneeskundig Onderzoek (EMGO-Instituut), Van der Boechorststraat 7, 1081 BT Amsterdam.

Contact Mw.dr.ir.M.Visser, epidemioloog (m.visser.emgo@med.vu.nl)

Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties

E.W.
Steyerberg

Rotterdam, juli 2001,

Recentelijk gaf Visser een nuttig overzicht van redenen voor teleurstellende resultaten van predictiemodellen in de klinische praktijk (2001:1109-12). Ten eerste wordt als oorzaak genoemd dat er vaak te veel predictoren zijn opgenomen in een predictiemodel. Het gaat echter om te veel variabelen als kandidaat-predictoren. Bijvoorbeeld, bij het ontwikkelen van predictiemodellen voor sterfte na acuut myocardinfarct werden gemiddeld slechts 2 à 3 statistisch significante predictoren geidentificeerd in een set van 8.1 Echter, het onderscheidend vermogen bij onafhankelijke patiënten verslechterde behoorlijk ten opzichte van een zogenaamd ‘full model’ waarin de kandidaat-predictoren simpelweg alle 8 waren geïncludeerd: de oppervlakte onder de ‘receiver operating characteristic’(ROC)-curve daalde van 0,75 naar 0,69. Om stapsgewijze selectie verantwoord te kunnen gebruiken is een veel grotere verhouding nodig tussen het aantal uitkomsten en het aantal kandidaat-predictoren dan de bekende 10:1, bijvoorbeeld 50:1.1 Als net aan de 10:1-regel wordt voldaan, kan men vaak wel een redelijk predictiemodel ontwikkelen door een full model te maken en ‘overfitting’ te corrigeren met krimpfactoren voor de regressiecoëfficiënten.1

Ten tweede gebeurt modellering slechts op basis van een steekproef uit de onderliggende populatie, waarvoor met interne validatietechnieken wordt getracht valide schattingen te verkrijgen. Terecht wordt als een van de nadelen van datasplitsingstechnieken aangegeven dat het uiteindelijke model niet geëvalueerd is indien dit op de totale steekproef gebaseerd is. Het zou echter een dwaling zijn om het uiteindelijke model te baseren op een kleiner aantal patiënten. De resultaten van de interne validatie zijn in dit geval een ondergrens van de kwaliteit van het uiteindelijke model. Alternatieve methoden zijn inderdaad kruisvalidatie (bijvoorbeeld 10 keer wordt 1/10 van de steekproef afgesplitst) of de ‘jackknife’-methode (elke patiënt wordt 1 keer afgesplitst uit de steekproef). Het moet echter duidelijk zijn dat ‘bootstrapping’ (met als kernaspect ‘trekken met teruglegging’) de te prefereren methode is voor interne validatie.2 3

Belangrijk is tenslotte externe validiteit, dat wil zeggen de kwaliteit van het model in een andere, redelijk verwante populatie.4 Inderdaad kunnen er wat betreft de effecten van predictoren verschillen zijn tussen populaties. Echter, als de effecten redelijk vergelijkbaar zijn, kunnen schattingen van het risico per patiënt toch onbetrouwbaar zijn.5 Een dergelijk gebrek aan kalibratie duidt erop dat er andere relevante predictoren zijn, die niet zijn opgenomen in het predictiemodel en in vóórkomen verschillen tussen de populaties. Externe validatie dient daarom zeker ook kalibratie te beschouwen, naast het onderscheidend vermogen van een predictiemodel.

E.W. Steyerberg
Literatuur
  1. Steyerberg EW, Eijkemans MJ, Harrell jr FE, Habbema JD. Prognostic modelling with logistic regression analysis: a comparison of selection and estimation methods in small data sets. Stat Med 2000;19:1059-79.

  2. Efron B, Tibshirani R. An introduction to the bootstrap. Monographs on statistics and applied probability. New York: Chapman & Hall; 1993. p. 57.

  3. Steyerberg EW, Harrell jr FE, Borsboom G, Eijkemans MJC, Vergouwe Y, Habbema JDF. Internal validation of predictive models: a comparison of methods for logistic regression analysis. J Clin Epidemiol 2001;54:774-81.

  4. Altman DG, Royston P. What do we mean by validating a prognostic model? Stat Med 2000;19:453-73.

  5. Houwelingen HC van. Validation, calibration, revision and combination of prognostic survival models. Stat Med 2000;19:3401-15.