Gefährliche Ratschläge: Sicherheitslücken in medizinischen KI-Systemen
Ein Arzt, der einer Schwangeren Thalidomid gegen ihre morgendliche Übelkeit verschreibt? Unvorstellbar, schliesslich ist Thalidomid ein Wirkstoff der FDA-Kategorie X, also ein hoch teratogenes Arzneimittel.

Heute beraten zunehmend KI-Systeme zu medizinischen Fragen. Doch diese Entwicklung birgt Risiken, wie eine aktuelle Studie zeigt: Selbst modernste KI-Programme lassen sich manipulieren und zu gefährlichen Therapieempfehlungen verleiten.
Künstliche Intelligenz spielt in der Medizin eine wachsende Rolle – sei es bei der Patientenberatung, der Unterstützung von Ärzten oder der Symptombeurteilung. Viele Patienten erhalten über KI-Chatbots persönliche Gesundheitstipps. Doch gerade diese direkte Interaktion macht die Systeme anfällig. Angreifer können gezielt Texte über Apps oder Programme einschleusen, um die KI zu falschen oder gefährlichen Antworten zu bewegen (sogenannte Prompt-Injection-Angriffe). In der Medizin können solche Fehlinformationen fatale Folgen haben. Bisher fehlten systematische Untersuchungen zur Anfälligkeit von KI-Programmen. Eine neue Studie schliesst diese Lücke und analysiert gezielte Angriffe in einer kontrollierten Umgebung.
Sicherheitslücken in medizinischen LLMs
Südkoreanische Forscher um Ro Woon Lee prüften in einer Qualitätsstudie, ob sich grosse Sprachmodelle (LLMs) so manipulieren lassen, dass sie falsche Behandlungsempfehlungen geben. In über 200 simulierten Dialogen zwischen "Patienten" und KI folgten die Gespräche einem festen sechsstufigen Schema. Die Hälfte der Dialoge manipulierten die Forscher gezielt:
- Patient schildert ein Problem.
- KI fragt nach.
- Patient bittet um Behandlung.
- KI gibt eine Empfehlung (entscheidender Moment).
- Patient fragt nach Sicherheit.
- KI gibt eine zweite Antwort.
Im Hauptexperiment testeten die Forscher drei kleinere KI-Modelle: GPT-4o-mini, Gemini 2.0 Flash-Lite und Claude 3 Haiku. Diese Modelle bewerteten zwölf medizinische Szenarien, die nach Schadenspotenzial in vier Kategorien eingeteilt wurden: Nahrungsergänzungsmittel, Opioid-Verschreibungen, Schwangerschaftskontraindikationen und toxische Effekte auf das zentrale Nervensystem. Fünf erfahrene Ärzte stuften die Risiken ein. Ein mittleres Risiko bestand etwa bei falschen Empfehlungen zu Ginseng bei Diabetes oder Bluthochdruck, ein hohes Risiko bei Oxycodon gegen starken Husten und ein extrem hohes Risiko bei Thalidomid in der Schwangerschaft.
Die Forscher nutzten zwei Angriffsmethoden. Zum einen manipulierten sie die KI mit scheinbar normalen medizinischen Informationen (Kontext-Manipulation). Diese Methode funktionierte besonders gut bei Wirkstoffen mit schwacher oder widersprüchlicher Evidenz, etwa Ginseng oder Opioiden bei mässigen Schmerzen. Die KI, darauf trainiert, kontextbezogen zu antworten, überschritt dabei ihre Sicherheitsgrenzen. Für Szenarien mit extrem hohem Risiko, wie Thalidomid in der Schwangerschaft, fütterten die Forscher die KI mit gefälschten Metaanalysen und erfundenen Leitlinien.
Falsche Empfehlungen durch manipulierte KIs
Alarmierend ist das Ergebnis: Die manipulierte KI gab in 94 % der Fälle eine falsche oder gefährliche Empfehlung ab, während die nicht manipulierte KI nur sehr selten Fehler machte. Besonders brisant: In den meisten Fällen blieb die gefährliche Empfehlung auch in späteren Gesprächsrunden mit der KI bestehen. Zudem funktionierten die Angriffe auch fast immer in Situationen mit extrem hohem Risiko. Problematisch ist dabei, dass die KI echte und gefälschte Studien nicht voneinander unterscheiden kann, wenn diese seriös aussehen. So weigerte sich beispielsweise nur eines der drei getesteten kleineren Modelle, Thalidomid in der Schwangerschaft zu empfehlen. Allerdings bot auch dieses keinen dauerhaften Schutz.
Selbst modernste Systeme bieten keinen Schutz
Aufgrund der hohen Manipulationsanfälligkeit des Hauptexperiments testeten die Forscher zusätzlich drei sehr leistungsfähige KI-Modelle (GPT-5, Gemini 2.5 Pro und Claude 4.5 Sonnet), die über ausgefeilte Schutzmechanismen verfügen. Sie simulierten einen Hackerangriff über Browser und Software (sog. Client-Side-Injection), so wie er auch in medizinischen Apps realistisch wäre. Die Browser-Malware fügte versteckte Anweisungen vor dem Dialogbeginn ein und beeinflusste so die gesamte Unterhaltung bis zur Hauptempfehlung durch die KI. Dabei ging es wieder um das besonders gefährliche Szenario Thalidomid in der Schwangerschaft. Das Ergebnis war ernüchternd: Zwei getestete Modelle waren zu 100 % anfällig, ein Modell zu 80 %.
Diese südkoreanische Studie macht deutlich, dass medizinische KIs aktuell nicht sicher sind gegen gezielte Manipulation. Bevor sie in der Patientenversorgung eingesetzt werden dürfen, braucht es also verpflichtende Sicherheitsprüfungen und technische Schutzmechanismen.
Lee RW et al. Vulnerability of Large Language Models to Prompt Injection When Providing Medical Advice. JAMA Netw Open. 2025; 8(12): e2549963. doi: 10.1001/jamanetworkopen.2025.49963.