Waarom een CT-aanvraag niet het middel is om dit te beoordelen

Kwaliteit van het klinisch redeneren verslechterd?

Een patiënt in een MRI scan
Rick R. van Rijn
Citeer dit artikel als
Ned Tijdschr Geneeskd. 2023;167:D7270

Artsen vragen tijdens de diensturen steeds vaker CT-onderzoek aan. Onderzoekers concluderen nu dat de kwaliteit van het klinisch redeneren van artsen die CT-onderzoek aanvragen, achteruit is gegaan. Zij vergeleken differentiaaldiagnosen op het aanvraagformulier met de definitieve uitslagen na CT-onderzoek. Maar was dit wel de juiste manier om het klinisch redeneren te beoordelen?

Elders in het NTvG staan beknopt de inhoud weergegeven van een artikel met de titel ‘Did medical doctors who order abdominal CT scans during on-call hours truly become worse at clinical reasoning? Yes, they did’. 1,2 In dit artikel beantwoorden de auteurs de vraag of de kwaliteit van het klinisch redeneren van clinici achteruit is gegaan. Zij doen dat aan de hand van de differentiaaldiagnose (d.d.) op de radiologie-aanvraag, geschreven in de diensturen. Zij vergeleken de differentiaaldiagnosen op het aanvraagformulier met de definitieve diagnosen na CT-onderzoek. Voor elke correcte differentiaaldiagnose werd 1 punt gegeven, en 0 punten als deze incorrect was. De score werd vervolgens berekend als een percentage. Een voorbeeld hiervan is de aanvraag waarop als d.d. geruptureerd aneurysma van de aorta abdominalis, nefrolithiasis en cholelithiasis staat en waarbij de CT-diagnose nefrolithiasis is; de score is dan 0,33%. Op basis van het verloop van deze scores concluderen de auteurs…

Auteursinformatie

Amsterdam UMC (UvA), afd. Radiologie en Nucleaire Geneeskunde, Amsterdam: prof.dr. R.R. van Rijn, kinderradioloog.

Contact R.R. van Rijn (r.r.vanrijn@amsterdamumc.nl)

Belangenverstrengeling

Belangenconflict en financiële ondersteuning: er zijn mogelijke belangen gemeld bij dit artikel. ICMJE-formulier met de belangenverklaring van de auteur is online beschikbaar bij dit artikel.

Auteur Belangenverstrengeling
Rick R. van Rijn ICMJE-formulier
Kwaliteit van klinisch redeneren zienderogen achteruit door CT
Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties

Met volle aandacht hebben wij het commentaar van prof. dr. Rick van Rijn gelezen. De belangrijkste vraag die werd gesteld door hem was of de opzet van de studie wel juist was om de vraag, is kwaliteit van klinisch redeneren in de afgelopen jaren veranderd, te kunnen beantwoorden [1]. Zijn twijfel en daaropvolgende gevoelsmatige overdenkingen hadden alle als vertrekpunt dat de radiologieaanvraag een kwalitatief slecht middel is om dit te meten. Een aantal zaken willen we verhelderen hierover. Ten eerste, gedurende het minutieus doornemen van de studiedata en de radiologieaanvragen was er geen reden om aan te nemen dat aanvragen slecht van kwaliteit waren. De conclusie die volgde uit onze studie is dan ook niet genomen op basis van niet ingevulde of slechte aanvragen. In tegendeel, de aanvragen waren juist helder en rijkelijk voorzien van informatie. Ten tweede, om dit nog eens te bevestigen is er een random sample getrokken uit de radiologieaanvragen van de afgelopen drie jaar uit de studiepopulatie waar met name het verval van het klinisch redeneren zichtbaar was. Het sample bestond uit circa 20% van de onderzoeken tussen 2017-2019. Deze radiologieaanvragen hebben wij vervolgens naast de klinische notities gelegd uit het patiëntendossier. Hierbij viel ons het volgende op: in alle gevallen was de informatie op de radiologieaanvraag langer en uitvoeriger dan in de klinische notities. Op de radiologieaanvraag staan zowel de klinische gegevens met relevante voorgeschiedenis beschreven, overeenkomend met de klinische notities, als de differentiaaldiagnose. Kortom, er staat meer op de radiologieaanvraag dan in de klinische notities. Nogmaals, de conclusie van onze studie volgt niet uit een aanvraag die inferieur is, maar juist uit te breed geformuleerde differentiaaldiagnosen welke niet specifiek genoeg zijn of uit het feit dat er simpelweg sprake is van een negatieve scanuitslag. De ervaring dat radiologieaanvragen suboptimaal zijn en veelal niet belangrijke info bevatten speelt niet bij de acute CT-abdomen aanvragen in de avond- en weekenddiensten in ons ziekenhuis. Verder hebben we in een eerdere studie laten zien dat aanvragen betreffende infectie of inflammatie, wat een aanzienlijk deel van de acute CT-abdomen aanvragen omvat, juist een voorspeller zijn van hogere kwaliteit radiologieaanvragen [2].

In een van de opmerkingen van prof. dr. Van Rijn wordt gespeculeerd dat schrijven sneller zou zijn dan typen voor de meesten, echter dat lijkt niet het geval in onze studie, want er lijkt eerder ruimschoots gebruik gemaakt te worden van de copy-paste-functie. Dat de patiëntenpopulatie complexer wordt en dat dit zou kunnen bijdragen aan de bredere differentiaaldiagnosen kan niet uitgesloten worden, maar dit punt blijft speculatief. Dat zowel ziekenhuizen als patiënten en familie van patiënten een diagnose willen bij het verlaten van het ziekenhuis is een argument dat misschien meer aandacht verdient. De 24-uurs zorg die altijd moet draaien en waarbij niet de levensbedreiging voor een patiënt de noodzaak van de zorg bepaalt, maar de wensen van de patiënt of het ziekenhuis zelf, is een situatie die in het huidige van stijgende zorgkosten eigenlijk niet meer past. Deze situatie zou echter wel kunnen zorgen voor meer aanvragen met ook een stijging van het absolute aantal van negatieve scans [3]. De vragen die onze studie zou moeten oproepen zijn dan ook van andere aard dan in het commentaar beschreven door prof. dr. Van Rijn, namelijk dat het verontrustend is om te zien dat de gelegenheid of mogelijkheid om meer te scannen in de tijd gepaard gaat met een enorme stijging van het aantal onderzoeken (de “gewoon omdat het kan” mentaliteit?). Het is tijd om te kijken of we een duidelijkere scheiding kunnen maken tussen scans die achterwege kunnen blijven en die echt moeten want groei is geen optie meer.

Derya Yakar
Thomas Kwee
Literatuur

1. Ersoydan S, Derya Yakar, Ömer Kasalak, Thomas C Kwee. Did medical doctors who order abdominal CT scans during on-call hours truly become worse at clinical reasoning? Yes, they did. Eur Radiol, 2022 Sep 7.

2. Ömer Kasalak, Haider A A Alnahwi, Rudi A J O Dierckx, Derya Yakar, Thomas C Kwee. Requests for radiologic imaging: Prevalence and determinants of inadequate quality according to RI-RADS. Eur J Radiol. 2021 Apr;137:109615.

3. Iliana V Mengou, Derya Yakar, Ömer Kasalak, Thomas C Kwee. Towards a benchmark of abdominal CT use during duty shifts: 15-year sample from the Netherlands. Abdom Radiol (NY). 2021 Apr;46(4):1761-1767.

Geachte redactie van het NTvG,

 

Met grote interesse lazen wij de samenvatting van en het recente commentaar op het recente artikel van Arsoydan et al: " Did medical doctors who order abdominal CT-scans during on-call hours truly become worse at clinical reasoning? Yes, they did ".1,2,3 Als internisten waarderen wij het initiatief van de auteurs om klinisch redeneren in de dagelijkse praktijk te onderzoeken. Hoewel de studie waardevolle inzichten biedt, zijn wij het niet eens met de algemene conclusie zoals vermeld in de titel. Ook gaat het waardevolle commentaar van Van Rijn3 niet in op fundamentele problemen van de gekozen onderzoeksopzet.

Dit fundamentele bezwaar is dat de door de auteurs gekozen operationalisering van de kwaliteit van klinisch redeneren niet zonder meer juist is, of door literatuur kan worden onderbouwd. De overeenstemming van een radiologie-aanvraag met de uiteindelijke diagnose in een veranderend zorglandschap is hoogst onwaarschijnlijk een maat voor de kwaliteit van klinisch redeneren. Er zijn veel andere valide alternatieve verklaringen voor de bevindingen van de auteurs. De meest waarschijnlijke verklaring voor de afname in overeenstemming tussen de radiologie-aanvraag en de diagnose is de gelijktijdige toename van CT-scans, die als je deze curve zou omdraaien perfect de trend in overeenstemming tussen CT-aanvragen en diagnoses weerspiegelt (zie figuur 2 in het oorspronkelijke artikel).1 Aangenomen dat de ziekte-incidente en verdeling over verschillende diagnoses over de tijd min of meer stabiel is, is het een mathematische wetmatigheid dat de overeenstemming tussen radiologie-aanvraag en de uiteindelijk diagnose zal dalen.4 Immers, het uitvoeren van meer scans bij hetzelfde aantal patiënten uit vergelijkbare populaties moet voortkomen uit scannen met een lagere voorafkans (prior) op ziekte. Dit leidt op zijn beurt tot een lagere scanopbrengst en dus tot een lagere overeenstemming. Dit probleem zou kunnen worden verholpen als de auteurs in het regressiemodel corrigeren voor het aantal verrichte CT-scans.

Helaas lost deze correctie niet alle problemen met het studieontwerp op. Alternatieve verklaringen voor een lagere overeenstemming zijn onder meer het feit dat de toegenomen beschikbaarheid van CT-scans de noodzaak voor artsen vermindert om moeite te doen om hun differentiaaldiagnoses nauwkeurig aan te geven op het CT-aanvraagformulier. Ook kan het voor vervolgacties, zoals bijvoorbeeld een abdominale operatie, steeds vaker gebruik zijn om de situatie vooraf middels CT in beeld te brengen. Het aanvraagformulier reflecteert dus niet noodzakelijkerwijs het klinisch redeneren van de arts.

Gelukkig blijven de resultaten van waarde, zelfs als de afname in concordantie volledig verklaard kan worden door het gestegen aantal CT-scans. Immers, toegenomen gebruik van CT-scans verdient zeker een kritische discussie. Wellicht is, naast bovengenoemde verklaringen, ook de tolerantie voor het missen van diagnoses lager geworden en zijn we dus defensiever geworden. Belangrijk te realiseren is dat als we als artsen minder diagnoses willen missen, dat dit altijd zal leiden tot een hoger percentage negatieve confirmatieonderzoeken.4 De vraag is hoever we hierin willen gaan.

PS. Ter illustratie van de achtergrond van ons commentaar hebben we een online calculator gemaakt die de mathematische relatie tussen het meer of minder verrichten van CT-scans en het aantal positieve scans illustreert.  Ook is een calculator beschikbaar die de relatie tussen het missen van diagnoses en het aantal positieve confirmatieonderzoeken demonstreert.

Hoogachtend,

Jonne J. Sikkens

Abel Thijs

Afdeling interne geneeskunde, Amsterdam UMC

Jonne J. Sikkens en Abel Thijs, internisten
Literatuur

Referenties:

  1. Ersoydan, S., Yakar, D., Kasalak, Ö. et al. Did medical doctors who order abdominal CT-scans during on-call hours truly become worse at clinical reasoning? Yes, they did. Eur Radiol 33, 1015–1021 (2023). https://doi.org/10.1007/s00330-022-09121-7
  2. Elbert, N. Kwaliteit van klinisch redeneren zienderogen achteruit door CT. Ned Tijdschr Geneeskd. 2023;167:D7231
  3. Van Rijn, R.R. Kwaliteit van het klinisch redeneren verslechterd?. Waarom een CT-aanvraag niet het middel is om dit te beoordelen. Ned Tijdschr Geneeskd. 2023;167:D7270
  4. Sikkens JJ, Beekman DG, Thijs A, Bossuyt PM, Smulders YM (2016) How Much Overtesting Is Needed to Safely Exclude a Diagnosis? A Different Perspective on Triage Testing Using Bayes' Theorem. PLoS ONE 11(3): e0150891. https://doi.org/10.1371/journal.pone.0150891

Wij danken van Rijn, Sikkens en Thijs voor het aandachtig lezen van ons stuk “Did medical doctors who order abdominal CT-scans during on-call hours truly become worse at clinical reasoning? Yes, they did” [1] en het voorzien van waardevol commentaar. Wij willen in onze reactie aan van Rijn benadrukken dat de radiologieaanvragen in onze studie van goede kwaliteit waren en er geen aanwijzingen waren dat de aanvragen inferieur waren. Om dit te benadrukken hebben we ook een random sample van radiologieaanvragen uit de afgelopen drie jaar naast de klinische notities gelegd. De informatie op de radiologieaanvragen waren juist langer en uitvoeriger dan in de klinische notities van het EPD. Onze conclusie volgt dan ook niet uit een aanvraag die inferieur was, maar juist uit te breed geformuleerde differentiaaldiagnosen die niet specifiek genoeg waren of uit het feit dat er simpelweg sprake was van een negatieve scanuitslag [2].

Zoals door Sikkens en Thijs wordt voorgesteld hebben wij een gecorrigeerde multipele regressieanalyse verricht voor het aantal scans. Het jaar waarin de CT-scan werd verricht was significant negatief geassocieerd (β coefficient of -2.039, p = 0.017) en het aantal CT-scans dat per jaar was verricht (op basis van de random sample in onze studie) was significant positief geassocieerd (β coefficient of 0.625, p = 0.035) met de kwaliteit van het klinische redeneren (uitgedrukt als de overeenstemming tussen de differentiaaldiagnosen op de ingevulde CT-aanvraag en de CT-diagnose). Hiermee is de stelling van Sikkens en Thijs “De meest waarschijnlijke verklaring voor de afname in overeenstemming tussen de radiologie-aanvraag en de diagnose is de gelijktijdige toename van CT-scan” verworpen. Verder geven zij aan dat zij fundamenteel bezwaar hebben met de gekozen operationalisering van de kwaliteit van klinisch redeneren. Zij dragen als enige argument aan dat dit een werkwijze is die niet door de literatuur kan worden onderbouwd. Wat zou dan wel goed het klinisch redeneren kunnen weerspiegelen? Om te beweren dat de kwaliteit van klinisch redeneren niet afgeleid kan worden uit de klinische notities uit het EPD is behoorlijk problematisch, omdat dit fundamenteel raakt aan de vraag wat we dan wel kunnen meten op basis van onze dossiervoering. Wij staan open voor betere meetmethoden en vinden het een gemiste kans dat hier juist niet op wordt ingegaan. Verder komen in onze ervaring de geschreven CT-aanvragen vrijwel altijd overeen met de mondelinge overdracht dat in de regel voorafgaat aan een dergelijke acute CT-abdomen. Wel zijn wij blij met de uitspraak “toegenomen gebruik van CT-scans verdient zeker een kritische discussie”. Volgens onze resultaten denken wij dat het belangrijk is om zowel te reflecteren op het te liberale gebruik van CT-scans als op de kwaliteit van het klinisch redeneren. Verder onderzoek is nodig om de resultaten van onze studie te bevestigen en het gebruik van beeldvorming in het huidige tijdperk aan een kritische analyse te onderwerpen. Het is verontrustend om te zien dat de met de jaren toegenomen gelegenheid of mogelijkheid om meer te scannen gepaard gaat met een enorme stijging van het aantal onderzoeken (de “gewoon omdat het kan” mentaliteit?). Het is tijd om te kijken of we een duidelijkere scheiding kunnen maken tussen scans die achterwege kunnen blijven en die echt moeten, want groei is geen optie meer.

Derya Yakar
Thomas Kwee
Literatuur

1. Ersoydan S, Derya Yakar, Ömer Kasalak, Thomas C Kwee. Did medical doctors who order abdominal CT scans during on-call hours truly become worse at clinical reasoning? Yes, they did. Eur Radiol 2023;33(2):1015-1021

2. Mengou IV, Yakar D, Kasalak Ö, Kwee TC. Towards a benchmark of abdominal CT use during duty shifts: 15-year sample from the Netherlands. Abdom Radiol (NY). 2021;46(4):1761-1767

Geachte redactie NTvG, geachte collega’s Yakar et al.,

Dank voor de uitgebreide reactie waarin u ingaat op onze vragen en kritiekpunten. We willen graag reageren op uw argumenten.

Zou uw reactie met betrekking tot de regressieanalyse kunnen berusten op een misverstand? In die reactie presenteert u de regressiecoëfficiënten van de variabele aantal CT scans en de variabele kalenderjaar. We denken dat de aan- of afwezigheid van confounding van het aantal CT-scans op de relatie tussen de tijd en de kwaliteit van klinisch redeneren niet vast te stellen is op basis van de door u gepresenteerde analyse. Wellicht was onze suggestie in onze eerste reactie dan ook niet geheel duidelijk. Wat wij bedoelden is: de ongecorrigeerde analyse met determinant tijd en uitkomst overeenkomst tussen aanvraag en CT-resultaat te vergelijken met dezelfde analyse maar waarbij dan als covariaat aantal CT-scans per tijdseenheid is toegevoegd.

Blijft de relatie tussen tijd en kwaliteit van klinisch redeneren overeind na toevoeging van deze potentiële confounder, dan kan de conclusie dat de overeenkomst tussen aanvraag en CT-resultaat over de tijd afneemt overeind blijven. Met andere woorden, in die situatie is de gevonden daling sterker dan de op zichzelf al mathematisch verwachte daling.

Blijft deze relatie echter statistisch niet overeind na toevoeging van de genoemde potentiële confounder, dan is de overeenkomst tussen aanvraag en CT-resultaat niet meer afgenomen dan op grond van de toename van het aantal CT-scans kan worden verwacht. In dat geval kan de conclusie niet zijn dat is aangetoond dat de kwaliteit van klinisch redeneren is afgenomen.

Dit alles neemt zeker niet weg dat de auteurs onomstotelijk aantonen dat het aantal verrichte CT-scans in deze setting ongebreideld lijkt te stijgen. Naast de door de auteurs genoemde, maar onzes inziens nog onvoldoende aannemelijk gemaakte, verslechtering van de kwaliteit van redeneren, zijn er legio andere – deels legitieme – redenen voor zo’n toename zoals: de wens, of zelfs de gevoelde plicht om minder diagnoses te missen, de wens om de anatomie preoperatief beter in kaart te brengen of de wens tot vermindering van invasieve proefprocedures. Een nadere beschouwing valt buiten het bestek van deze brief, en vermoedelijk destijds ook buiten het bestek van het oorspronkelijke artikel, maar is er niet minder relevant om.

Tot slot noemen Yakar et al. enkele interessante zaken over de operationalisatie van klinisch redeneren in hun onderzoek. Wij gaven in onze reactie aan dat de gekozen definitie van overeenkomst tussen CT-aanvraag en resultaat fundamentele problemen bevat, waaronder (en dus niet uitsluitend) het gebrek aan literatuuronderbouwing. Zoals in onze eerdere en deze reactie aangegeven zijn er vele alternatieve verklaringen voor de daling in deze overeenkomst te geven. De auteurs geven als belangrijkste tegenargument aan dat er geen alternatieve definitie is (‘Wat zou dan wel goed het klinisch redeneren kunnen weerspiegelen?’). Draait dit de bewijslast niet om? De beargumentatie van validiteit van de onderzoeksmaat is immers aan de onderzoeker zelf. Een alternatief voor de gebruikte operationalisatie zou bijvoorbeeld de klinische statusnotitie in het EPD kunnen zijn, die als doel heeft het klinisch redeneren adequaat weer te geven, in tegenstelling tot de gebruikte CT-aanvraag. Ook is het belangrijk aan te geven dat het in de studie ging om CT-aanvragen, en niet om de veel breder interpreteerbare EPD-notities.

We kunnen ons voorstellen dat de discussie hiermee niet gesloten is, maar dit podium is voor een verdere gedachtewisseling minder geschikt dan een persoonlijke dialoog die we -gezien het belang van het onderwerp en onze interesse – van harte bereid zijn om aan te gaan.

Met vriendelijke groet,

 

Jonne Sikkens

Abel Thijs 

Jonne Sikkens
Abel Thijs