Het invoeren van nieuwe technologie in de gezondheidszorg is een interventie die niet principieel verschilt van het voorschrijven van een nieuw medicijn. Toch is het laatste aan strenge regels gebonden, en het eerste niet. Ik vind dat niet juist: alle interventies hebben bijwerkingen.
‘O brave new world…’ - William Shakespeare (1564-1616), uit ‘De storm’, akte 5, scène 1.
Het screeningsinstrument voor depressie dat bij de patiënt uit de casus werd gebruikt is zélf redelijk accuraat, en depressie komt bij patiënten met diabetes vaak voor. Maar als vervolgens geen hulp kan worden geboden, richt de interventie schade aan (ze wijst mensen op de noodzaak van hulp, die vervolgens niet beschikbaar is) en is deze in feite onethisch.1 De app die thuisbeoordeling van boezemfibrilleren mogelijk maakt lijkt een goed idee – wie kan ertegen zijn? Maar als een patiënt dagelijks geconfronteerd wordt met informatie die hij eerst niet had, kunnen misverstanden ontstaan – en ook die kunnen schade aanrichten.
Van artificial intelligence (AI), en in het bijzonder machinelearning, wordt verwacht dat ze de gezondheidszorg efficiënter en accurater kan maken. Maar het voorbeeld van de patiënt uit de casus laat wel zien dat invoering van…
Anamnestische gegevens zijn afhankelijke diagnostische tests
Coen Stehouwer maakt een aantal valide punten. Elke nieuwe technologie brengt gevaren met zich mee als deze niet goed gevalideerd wordt of niet op de juiste manier ingezet. Dat geldt zeker voor kunstmatige intelligentie (AI) en in het bijzonder machine learning. Er is niet voor niets een onderzoeksveld dat zich met de ethiek van AI bezighoudt. Ook explainable AI (tegenover de ondoorzichtige algoritmen waar Stehouwer aan refereert) krijgt tegenwoordig veel aandacht. En ja, klachten zijn ingebed in een culturele en persoonlijke context. Een goede anamnese afnemen is een kunst. We zien dan ook niet in de nabije toekomst een computer een anamnese afnemen. Classificatie van klachten brengt informatieverlies met zich mee – ook waar. Classificatie is een onontkoombaar onderdeel van het diagnostisch proces dat niet specifiek is voor ons voorstel. Ook tijdens de huidige anamnese classificeert de arts klachten uiteindelijk als ‘dysurie’ of ‘dyspnoe’. Het gaat erom dat de classificatie fijnmazig genoeg is om zo min mogelijk informatie te verliezen en toch zinvolle klassen te behouden.
Wat onderbelicht blijft in het commentaar van Stehouwer is dat er wel degelijk een probleem is bij het stellen van diagnosen. Veel diagnosen zijn onzeker, ook als er wèl tijd is geweest om na te denken. Daarnaast leiden de bekende cognitieve valkuilen (availability bias, base-rate neglect, anchoring en ga zo maar door) tot foutieve diagnoses. Een rapport uit 2015 van de Amerikaanse National Academy of Sciences meldde dat diagnostische fouten in het ziekenhuis bijdroegen aan circa 10% van de sterfgevallen en leidden tot 6 à 17% van de ongewenste uitkomsten. We zien geen reden om te denken dat de situatie in Nederland radicaal anders is.
Onze belangrijkste kritiek op het commentaar van Stehouwer is echter zijn stelling dat anamnestische gegevens niet als diagnostische tests te benaderen zijn. Dat komt neer op zeggen dat de anamnese weinig diagnostische waarde heeft. Natuurlijk is anamnestische diagnostiek imperfect, zoals alle diagnostiek, en hebben de ‘uitkomsten’ van die testen een betrouwbaarheidsinterval. Ook geloven wij dat de meeste patiënten bij een goed afgenomen anamnese betrouwbare informatie kunnen leveren. De boerin uit de anekdote van Stehouwer had met wat goede interviewtechnieken vast kunnen vertellen of haar echtgenoot druk op de borst had. Door de anamnese op deze manier te diskwalificeren draagt Stehouwer bij aan het huidige klimaat waarin te veel nadruk ligt op aanvullend onderzoek en te weinig op anamnese en lichamelijk onderzoek, met overdiagnostiek tot gevolg. Overigens stellen wij niet voor om anamnestische gegevens als onafhankelijke tests te beschouwen. Zoals bij alle data-analyse zal ook bij anamnestische gegevens bekeken moeten worden hoe ze het best gemodelleerd kunnen worden, van logistische regressie tot machine learning modellen. Het mooie van modellen is daarbij dat ze op een kwantitatieve manier met complexe relaties rekening kunnen houden, in tegenstelling tot het menselijk brein.
Tot slot willen we nog benadrukken dat logisch nadenken en clinical decision support systems (CDSS) elkaar niet bijten en dat niemand de arts zal dwingen CDSS als hulpmiddel te gebruiken. Het is mogelijk dat CDSS het gedrag van de arts zullen beïnvloeden, maar dat zou ook wenselijk kunnen zijn, zoals wanneer de arts die vergeet een cruciale vraag te stellen die goed kan differentiëren tussen twee waarschijnlijke diagnoses, alsnog aan deze vraag herinnerd wordt.
Martijn Bauer, internist, LUMC
Algoritmes kunnen wel aan bijdragen aan doelmatige diagnostiek
Collega Stehouwer gaat wel erg kort door de bocht in zijn afwijzende commentaar op de mogelijkheden die machine learning en de er uit voorkomende algoritmen bieden Juist voor wat hij wél wil - het beperken van onnodige diagnostiek - biedt een benadering zoals beschreven door Bauer et al (D5211) kansen. Een voorbeeld is de Amsterdam Wrist rules app, die aantoonbaar het aantal rontgenfoto's vermindert (D5198).
Natuurlijk kunnen ervaren artsen heel goed patronen herkennen. Maar ook zij hebben goede en minder goede dagen. En de zorg wordt vaak geleverd door minder ervaren artsen en verpleegkundigen. Een paar jaar geleden dachten velen dat het herkennen van retina afwijkingen beter aan artsen kon worden overgelaten. Nu weten we dat het ook anders kan. Zulke algoritmen zijn niet per definitie ondoorzichtig. De wiskundige principes die er aan ten grondslag liggen zijn bekend en de resultaten kunnen met onzekerheidsmarges worden gepresenteerd.
Inderdaad: 100% zekerheid bestaat haast niet in de zorg. Laten we een positieve grondhouding kiezen ten aanzien van de kansen die machine learning biedt, juist om ook doelmatiger diagnostiek te gaan bedrijven in de onzekere zones waar we als artsen dagelijks in moeten werken.
Hein Bernelot Moens, reumatoloog, Ziekenhuisgroep Twente
reactie auteur
Martijn Bauer is het in grote lijnen eens met mijn zorgen. Daar ben ik blij om, want de nadelen van onjuiste inzet van nieuwe technologie zijn uiteindelijk voor rekening van de patiënt. Bauer meent, ten onrechte, dat ik diagnostische fouten onderschat. Ik maakte onderscheid tussen alledaagse diagnosen (gewoonlijk niet problematisch, en kunstmatige intelligentie (AI) heeft geen nut) en moeilijke diagnosen – misschien dat AI dáár kan helpen. Maar wat Bauer et al. voorstelden was alle anamnesegesprekken te condenseren tot analyseerbare tekst: dan is (zoals ik betoogde) het middel erger dan de kwaal.
De overige kritiek van Bauer is niet ter zake. Ik heb nergens beweerd dat anamnestische gegevens niet als diagnostische tests te benaderen zijn. Integendeel. Ik denk alleen dat een goede anamnese veel méér is dan een serie ja-nee-antwoorden. Verder meent Bauer dat de boerin uit mijn anekdote ‘met wat goede interviewtechnieken vast [had] kunnen vertellen of haar echtgenoot druk op de borst had’. Helaas, nee. Mijn opleiders wisten dat en waarschuwden hun assistenten daarvoor. Dat is nu juist het punt: sommige culturen zijn domweg heel anders in hoe klachten worden gepresenteerd. Nu ik zelf assistenten opleid zeg ik hun wel eens: zulke patiënten hebben niet hetzelfde medische leerboek gelezen als jij. Dat is geen kwestie van interviewtechniek, dat is een kwestie van hoe zo’n patiënt symptomen voelt en uit – de blinde vlek van AI. (Terzijde: een persoonlijke reactie van een collega die patiënten uit die regio ziet leerde mij dat het anno 2021 niet veel anders is dan anno 1988.) Het verwijt dat ik de anamnese als diagnostisch instrument diskwalificeer raakt dus kant noch wal; het tegendeel is waar. Mijn stelling is dat AI de huidige anamnesepraktijk (met alle beperkingen van dien) niet gemakkelijk kan verbeteren – althans niet zonder heel veel nadelen.
In antwoord op Bernelot Moens: in specifieke, welomschreven situaties kan AI zeker nuttig zijn. Ik gaf het voorbeeld van het beoordelen van retinafoto’s; hij dat van de Amsterdam wrist rules. Beide zijn niet te vergelijken met het trachten te codificeren van (alle!) anamnesen. De zwakke plekken van algoritmen gebaseerd op machinelearning zijn hun ondoorzichtigheid en hun ongevoeligheid voor culturele en contextuele dimensies – zie de anekdote van de boerin uit Voorne-Putten. Ik ben zeker geen tegenstander van AI. Maar de anamnese: dat is vooralsnog een brug te ver.
Coen Stehouwer, internist, MUMC+, Maastricht