Samenvatting
Doel
Bepalen van de waarde van een succesvolle proefbehandeling met protonpompremmers als diagnostische test voor refluxziekte.
Opzet
Systematische review en meta-analyse.
Methode
Uit studies waarin het effect van 1-4 weken proefbehandeling met een protonpompremmer kon worden gerelateerd aan meting van afwijkende 24-uurs-pH-waarden, gastroscopie en/of diagnostische vragenlijsten, werden sensitiviteit en specificiteit van de proefbehandeling berekend. De resultaten werden samengevat in een ROC-curve en gecombineerde testeigenschappen.
Resultaten
Het aannemelijkheidsquotiënt van de diagnose ‘refluxziekte’, vastgesteld met 24-uurs-pH-meting, op basis van een succesvolle proefbehandeling liep uiteen van 1,63 tot 1,87. De uit de verschillende studies gecombineerde waarden van sensitiviteit en specificiteit bedroegen 0,78 (95-BI: 0,66-0,86), respectievelijk 0,54 (0,44-0,65). Bij de andere referentietests waren deze waarden lager.
Conclusie
Hoewel het effect van verschillen in dosering en duur op de testeigenschappen niet exact kon worden vastgesteld, biedt een succesvolle proefbehandeling met protonpompremmers onvoldoende zekerheid over de diagnose ‘refluxziekte’.
(Geen onderwerp)
Amsterdam, oktober 2004,
In een recente bijdrage aan het Tijdschrift concludeerden de collegae Numans et al. dat een geslaagde proefbehandeling met een protonpompremmer bij patiënten met refluxklachten onvoldoende basis biedt voor de diagnose ‘refluxziekte’ (2004:1924-8). De conclusie van de auteurs was gebaseerd op een systematisch onderzoek van de literatuur en een meta-analyse van de daarin gerapporteerde bevindingen. De bijdrage was een bewerking van een artikel dat eerder was verschenen in Annals of Internal Medicine.1 Wellicht is de conclusie van de auteurs terecht. De gehanteerde methodologie biedt echter geen goede weergave van wat heden ten dage als methodologisch deugdelijk mag worden beschouwd bij het uitvoeren van systematische reviews en meta-analyse van diagnostische accuratesse.
Een systematisch onderzoek van de literatuur bestaat enerzijds uit uitgebreid onderzoek van de literatuur en anderzijds uit een beoordeling van de bedreigingen van de validiteit van het daarin aangetroffen onderzoek. Daarom wordt gezocht in meerdere databases: niet alleen in Medline, maar bijvoorbeeld ook in Embase, en in bestanden die overzichten van diagnostische tests bevatten, zoals de Database of Abstracts of Reviews of Effects (DARE) (www.york.ac.uk/inst/crd/darehp.htm) en Medion (www.mediondatabase.nl). Het gebruik van termen voor diagnostisch onderzoek als zoekfilters is niet aan te raden bij systematisch literatuuronderzoek; die termen maken het resultaat van de zoekopdracht kleiner, maar daardoor gaan altijd ook relevante artikelen verloren. Vervolgens moet de validiteit van het gevonden onderzoek beoordeeld worden. We weten ondertussen dat sommige manieren om onderzoek naar diagnostische tests op te zetten vaker leiden tot vertekende schattingen.2 Het is jammer dat de auteurs, wanneer zij refereren aan ‘beschikbare richtlijnen’ voor het beoordelen van de kwaliteit van het gevonden onderzoek, enkel verwijzen naar één, 15 jaar oud, artikel met daarin een lijstje dat 14 stafleden van de afdeling Interne Geneeskunde van het University of Texas Health Science Center, San Antonio, hebben opgesteld op een van hun vergaderingen.3 Sinds die afdelingsvergadering in Texas is er veel gebeurd. De ‘Standards for reporting of diagnostic accuracy’ (STARD) bevatten richtlijnen voor de rapportage van onderzoek naar vertekening.4 Whiting et al. hebben een systematisch literatuuronderzoek naar bronnen van vertekening en variatie uitgevoerd en hebben op die basis een scorelijst voor systematische reviews als deze voorgesteld.5 6
Het is niet helemaal duidelijk waarom Numans et al. in hun bijdrage enkel aandacht besteden aan de verschillende referentietests, en niet ook aan andere bronnen van vertekening, zoals de wijze waarop de deelnemers zijn geworven of de mate van verificatie. In hun meta-analyse rapporteren de auteurs samenvattende schattingen van de sensitiviteit en de specificiteit. Zij hebben die enerzijds gebaseerd op de terecht positieve en fout-negatieve uitkomsten en anderzijds op de terecht negatieve en fout-positieve uitkomsten van alle ingesloten onderzoeken. In een eerste richtlijn voor systematisch literatuuronderzoek van diagnostische tests, 10 jaar geleden gepubliceerd in Annals of Internal Medicine, stond echter al dat dit juist niet de manier is om onderzoek naar tests samen te vatten.7 Zoals de auteurs zelf aangeven, is er tussen onderzoeken doorgaans een ‘uitruil’ te zien: hogere sensitiviteit gaat gepaard met lagere specificiteit en omgekeerd. Die uitruil is niet lineair en een methode voor de meta-analyse moet daarmee rekening houden door juist niet de sensitiviteit en de specificiteit afzonderlijk te ‘poolen’. Dat kan onder meer door te kiezen voor een bivariate vorm van meta-analyse,8 9 waarin ook de correlatie wordt verrekend, of voor een gepaste vorm van de ‘summary receiver operating characteristic’(SROC)-methode.10 Het is niet aannemelijk dat de beperkingen van de gebruikte methodologie de conclusie van de auteurs zullen ondermijnen. De reactie op een proefbehandeling met een protonpompremmer staat niet gelijk met refluxziekte. Het is alleen jammer dat voor die zeldzame keer dat in het Tijdschrift verslag wordt uitgebracht van systematisch literatuuronderzoek naar tests, niet een methode volgens de huidige stand van de wetenschap is gebruikt.
In de literatuur zijn al meer dan 200 voorbeelden van systematisch literatuuronderzoek naar tests terug te vinden, en de toename groeit jaarlijks. Numans, Bonis en Lau hebben ook meegewerkt aan een Cochrane-review over de behandeling van refluxgerelateerde klachten. Binnen diezelf-de Cochrane Collaboration zijn intussen de voorbereidingen begonnen voor toekomstige opname van systematische overzichten van tests in de Cochrane Library. Geïnteresseerden worden daarom opgeroepen de ontwikkelingen in de literatuur nauwlettend in de gaten te houden.
Numans ME, Lau J, Wit NJ de, Bonis PA. Short-term treatment with proton-pump inhibitors as a test for gastroesophageal reflux disease: a meta-analysis of diagnostic test characteristics. Ann Intern Med 2004;140:518-27.
Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Meulen JH van der, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999;282:1061-6.
Mulrow D, Linn WD, Gaul MK, Pugh JA. Assessing quality of a diagnostic test evaluation. J Gen Intern Med 1989;4:288-95.
Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Standards for Reporting of Diagnostic Accuracy Group. Ann Intern Med 2003;138:40-4.
Whiting P, Rutjes AW, Reitsma JB, Glas AS, Bossuyt PM, Kleijnen J. Sources of variation and bias in studies of diagnostic accuracy: a systematic review. Ann Intern Med 2004;140:189-202.
Whiting P, Rutjes AW, Reitsma JB, Bossuyt PM, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol 2003;3:25.
Irwig L, Tosteson ANA, Gatsonis C, Lau J, Colditz G, Chalmers TC, et al. Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med 1994;120:667-76.
Glas AS, Roos D, Deutekom M, Zwinderman AH, Bossuyt PM, Kurth KH. Tumor markers in the diagnosis of primary bladder cancer. A systematic review. J Urol 2003;169:1975-82.
Houwelingen HC van, Zwinderman KH, Stijnen T. A bivariate approach to meta-analysis. Stat Med 1993;12:2273-84.
Rutter CM, Gatsonis CA. A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med 2001;20:2865-84.
(Geen onderwerp)
Utrecht, november 2004,
Collega Bossuyt neemt terecht de gelegenheid te baat om alsnog de methodologie voor meta-analyse van een diagnostische test uit te leggen, waarvoor dank. In het bewerkingsproces voor de publicatie van onze meta-analyse in het Tijdschrift is met name het methodedeel aanzienlijk ingekort en van nuanceringen ontdaan – een compromis, dat uiteraard bij meer ingewijde lezers vragen oproept. De suggestie van Bossuyt dat de gehanteerde methodologie ‘geen goede weergave biedt van wat heden ten dage als methodologisch deugdelijk mag worden beschouwd’ gaat echter veel verder dan de in dit artikel verschafte informatie toelaat.
In essentie heeft de kritiek van Bossuyt betrekking op twee punten. Het gaat allereerst over de bron van ons onderzoek, de gevonden artikelen, waarvoor een te beperkte zoekstrategie zou zijn gehanteerd en waarbij van een gedateerde beoordelingslijst gebruik zou zijn gemaakt. Op beide punten verschaft ons oorspronkelijke artikel in Annals of Internal Medicine nuttige informatie.1 Uiteraard zijn alle genoemde bronnen geraadpleegd en vanzelfsprekend is niet alleen gebruikgemaakt van termen voor diagnostisch onderzoek. Juist omdat voor deze meta-analyse niet alleen als diagnostisch gekenschetste onderzoeken met protonpompremmers in aanmerking kwamen, maar ook simpele trials met een adequate subgroepanalyse, is de zoekstrategie zeer breed gehouden. Voor de beoordeling van de uiteindelijk geselecteerde volledige artikelen werd gebruikgemaakt van de gepubliceerde richtlijnen die in 2001 beschikbaar waren. Bossuyt verwijst naar richtlijnen die in 2003 en 2004 zijn gepubliceerd. Wij waren uiteraard destijds van de STARD-richtlijnen ‘in wording’ informeel op de hoogte, maar konden daar nog niet naar verwijzen en hebben besloten ook achteraf niet net te doen alsof wij ze hadden gebruikt.
Ten tweede bekritiseert Bossuyt de gehanteerde methode voor datasynthese: wij zouden ons te zeer baseren op de gepoolde sensitiviteit en specificiteit en zouden onvoldoende aandacht besteden aan andere bronnen van vertekening bij de interpretatie. Het zijn met name deze punten waaraan wij in het originele artikel veel meer aandacht hebben besteed dan in de Nederlandstalige bewerking.1 Er is al jarenlang zeer veel discussie onder methodologen over de correctheid van rapportage uit de meta-analyse van diagnostische tests. De tweede auteur van ons artikel, Lau, is op meerdere momenten ook in die discussie betrokken geweest.
Wij hebben gekozen voor een presentatie van twee manieren om de gegevens samen te vatten, namelijk pooling van sensitiviteit en specificiteit door middel van het gepresenteerde ‘random effects’-model en daarnaast visuele weergave van de testeigenschappen in een SROC-curve, en we hebben ook de voor- en nadelen daarvan besproken. Geen enkele methode is in dit geval ideaal en het is de combinatie van methoden die een genuanceerdere interpretatie mogelijk heeft gemaakt. Het gaat hier niet om een gewone diagnostische test, maar om de toepassing van een interventie, met een resultaat waaraan veel clinici een diagnostisch oordeel toekennen. De uitvoering van de interventie en de interpretatie van het resultaat, maar ook de referentietests zelf, zijn als ‘gouden standaard’ variabel. Analyse van de variaties waar dat mogelijk was, heeft ons echter tot nu toe geen aanleiding gegeven om te denken dat de matige testeigenschappen fundamenteel te verbeteren zouden zijn door een of meer ingrepen (bijvoorbeeld dosisverhoging, verlenging van de behandeling of strakkere regels voor de referentietest).
Wij menen dat wij in dit onderzoek, volgens de huidige stand van de wetenschap en op een zo integer mogelijke wijze, licht hebben kunnen werpen op de diagnostische waarde van kortetermijnbehandeling met protonpompremmers voor het stellen van de diagnose ‘refluxziekte’ of het verwerpen daarvan. De conclusie is dat de diagnostische betekenis van een succesvolle behandeling veel beperkter is dan velen denken en in ieder geval niet voldoende is om te gelden als indicatie voor langetermijnbehandeling met protonpompremmers. Dat is van groot belang, gezien de wens van velen om te komen tot een rationeler voorschrijfbeleid ten aanzien van zuurremming in dit stadium. De juistheid van die conclusie wordt ook door Bossuyt niet in twijfel getrokken.
Het is uiteraard onze bedoeling zo dicht mogelijk aan te sluiten bij de methodologie voor rapportage van de meta-analyse van diagnostische tests die zal worden ontwikkeld voor de Cochrane Collaboration. Een volgende versie van dit gecompliceerde onderzoek zal, als dat dan inmiddels wel mogelijk is, wat ons betreft dan ook onder de Cochrane-vlag worden gepubliceerd.
Numans ME, Lau J, Wit NJ de, Bonis PA. Short-term treatment with proton-pump inhibitors as a test for gastroesophageal reflux disease: a meta-analysis of diagnostic test characteristics. Ann Intern Med 2004;140:518-27.