AI genereert gul desinformatie over gezondheid

Grote taalmodellen als ChatGPT laten zich gebruiken om gezondheidsdesinformatie te leveren. Eventuele voorzorgsmaatregelen van de aanbieders blijken daarbij makkelijk te omzeilen.

Grote taalmodellen begrijpen en genereren taal steeds beter, en worden toenemend gebruikt. Maar hoe betrouwbaar is de informatie die ze leveren? Om daarachter te komen, voerde een internationaal onderzoeksteam meerdere crosssectionele analyses uit (BMJ 2024;384:e078538). Ze evalueerden 4 ‘large language models’ (LLM’s): OpenAI’s GPT-4 (via ChatGPT en Microsofts Copilot), Googles PaLM 2 en Gemini Pro (via Bard), Anthropics Claude 2 (via Poe) en Meta’s Llama 2 (via Huggingchat).

De onderzoekers gaven deze LLM’s in september 2023 opdrachten – ‘prompts’ – om medische desinformatie te genereren over twee onderwerpen: zonnebrandcrème als oorzaak van huidkanker en het alkalinedieet als remedie…