Medical Tribune
18. Nov. 2023KI-Sprachmodelle

Wie zuverlässig sind Chatbots bei Fragen zu häufigen Krebserkrankungen?

KI-Sprachmodelle (Chatbots) liefern zutreffende Antworten auf häufig gestellte Fragen zu den fünf häufigsten Tumorentitäten. Allerdings könnten die knappen Texte, das Fehlen von Grafikelementen und das Sprachniveau das Verständnis für viele Laien erschweren.

Chatbots lieferten in einer Studie zwar korrekte, aber nicht unbedingt praktische Resultate bei onkologischen Anfragen.
Isara/stock.adobe.com

Immer mehr Laien nutzen KI-gestützte Sprachmodelle, um medizinische Informationen abzurufen. Doch wie zuverlässig sind diese Programme in Bezug auf häufige Krebserkrankungen?

Resultate von Chatbots korrekt, aber unpraktisch

Wissenschaftler um Alexander Pan von der SUNY Downstate Health Sciences University in New York haben die Antworten von vier Chatbots (ChatGPT Version 3.5, Perplexity, Chatsonic und Bing AI) zu den Themen

  • Lungenkrebs,
  • Hautkrebs,
  • CRC,
  • Mammakarzinom und
  • Prostatakarzinom

getestet.

Dabei haben sie die fünf populärsten Google-Suchanfragen zu jeder Entität eingegeben und die Qualität, Verständlichkeit, Lesbarkeit und praktische Nutzbarkeit der erhaltenen Antworten mittels der üblichen Scores (siehe Kasten) DISCERN (Informationsqualität), PEMAT (Verständlichkeit und Anwendbarkeit) bewertet.

Die Gesamtbewertung der DISCERN-Scores lag bei 45, was auf eine hohe Qualität der Informationen hinweist. Gemäss den NCCN-Leitlinien enthielten die KI-Resultate keine Fehlinformationen. Die PEMAT-Scores zur Verständlichkeit lagen im mittleren Bereich (Gesamtmedian aller Modelle 66,7 %), während sie für die praktische Anwendbarkeit schlecht abschnitten (Median aller Modelle 20,0 %).

Quellenangaben als verlässlich beurteilt

Die Antworten der verschiedenen Chatbots waren im Durchschnitt 91146 Worte lang und auf Universitätsniveau formuliert. Mit Ausnahme von ChatGPT zitierten alle Programme Quellen, unter denen Nutzer weitere Informationen finden konnten. Zu den häufigsten Referenzen zählten beispielsweise die Internetauftritte der Mayo Clinic und der Amerikanischen Krebsgesellschaft, die von den Autoren als verlässlich eingestuft wurden.

Die Forscher kommen zu dem Schluss, dass die untersuchten Chatbots im Allgemeinen korrekte Informationen zu den fünf häufigsten Krebserkrankungen liefern. Allerdings kritisieren sie, dass die Texte eine hohe Lesekompetenz voraussetzen und der praktische Nutzen für Laien begrenzt ist. Zudem sind die Antworten knapp gehalten und es wird vermutet, dass viele Konzepte ohne Abbildungen schwer zu erklären sind. Daher eignen sich Chatbots ihrer Meinung nach als Hilfsmittel, aber nicht als primäre Quelle für medizinische Informationen.

Professor Dr. Dr. ­Atul J. ­Butte von der University of California in San Francisco erinnerte in einem begleitenden Kommentar (2) daran, dass ChatGPT in einer anderen Studie teilweise nichtleitliniengerechte Therapien vorschlug und 12,5 Prozent der Antworten als «Halluzinationen» zu bewerten waren.

Der Kommentator verwies auf die Möglichkeit, spezialisierte Chatbots für medizinische Informationen zu entwickeln. Das wahre Potenzial liege darin, die Modelle mit Daten aus den besten Krebszentren zu trainieren und dieses Wissen mithilfe digitaler Anwendungen zu verbreiten. Dadurch könnten mehr Patienten von der Expertise profitieren, unabhängig von ihrem Wohnort oder sozioökonomischen Status.

Verwendete Messgrössen

Für die Bewertung der Informationen wurden der DISCERN-Score verwendet, der die Qualität von schriftlichen Informationen über Behandlungsoptionen bewertet und zwischen 1 (niedrig) und 5 (hoch) liegt, sowie der PEMAT-Score, der Informationsmaterialien für Patienten bewertet und in die Teilbereiche Verständlichkeit und praktische Umsetzbarkeit unterteilt ist. Der PEMAT-Score nimmt Werte zwischen 0 % und 100 % an, wobei ein hoher Wert angestrebt wird.