Googles Med-Gemini KI erfindet Körperteil – Sicherheit in Gefahr?

Theverge

Googles KI-Modell für das Gesundheitswesen, Med-Gemini, generierte kürzlich in einem Diagnosebericht eine nicht existierende anatomische Struktur. Diesen Fehler heben medizinische Experten als kritischen Beleg für die Risiken hervor, die mit dem Einsatz von KI in klinischen Umgebungen verbunden sind. Der Vorfall, den Google zunächst als „Tippfehler“ herunterspielte, hat eine breitere Diskussion über KI-„Halluzinationen“ und Patientensicherheit entfacht.

Der spezifische Fehler erschien in einer Forschungsarbeit aus dem Jahr 2024, die Med-Gemini vorstellte, wo die KI einen „alten Infarkt des linken Basalganglions“ diagnostizierte. Der zertifizierte Neurologe und KI-Forscher Bryan Moore stellte fest, dass „Basalganglion“ eine Vermischung zweier unterschiedlicher Hirnstrukturen ist: der „Basalganglien“, die die motorische Kontrolle und das Lernen unterstützen, und der „Basilararterie“, die den Hirnstamm mit Blut versorgt. Zustände, die diese Bereiche betreffen, erfordern grundverschiedene Behandlungen. Moore meldete den Fehler an Google, woraufhin Google still und unbemerkt seinen begleitenden Blogbeitrag bearbeitete und „Basalganglion“ in „Basalganglien“ änderte. Nach öffentlicher Prüfung durch Moore machte Google die Änderung des Blogbeitrags rückgängig, fügte aber eine erklärende Bildunterschrift hinzu, die den Fehler einer „häufigen Fehltranskription“ zuschrieb, die aus Trainingsdaten gelernt wurde. Entscheidend ist, dass das ursprüngliche Forschungspapier, das von über 50 Personen mitverfasst und von Fachkollegen begutachtet wurde, unkorrigiert bleibt.

Med-Gemini ist eine Suite von KI-Modellen, die medizinische Fachkräfte unterstützen sollen, indem sie Gesundheitsdaten zusammenfassen, Radiologieberichte erstellen und elektronische Gesundheitsakten analysieren. Google bewarb es zunächst als „Sprung nach vorn“ mit „erheblichem Potenzial“ in verschiedenen medizinischen Bereichen. Obwohl es sich noch in frühen Testphasen befindet und sein „Trusted Tester Program“ wahrscheinlich auf reale Pilotszenarien ausgeweitet wird, nehmen die Auswirkungen von KI-Fehlern zu.

Medizinische Fachkräfte äußern tiefe Besorgnis über solche Ungenauigkeiten. Maulin Shah, Chief Medical Information Officer bei Providence, einem großen Gesundheitssystem, bezeichnete den Fehler als „supergefährlich“ und betonte den entscheidenden Unterschied, den wenige Buchstaben im medizinischen Kontext ausmachen können. Er hob das Risiko hervor, dass KI falsche Informationen verbreitet, und nannte ein Beispiel, bei dem KI einen von Menschen gemachten Fehler aus medizinischen Notizen verbreiten und zu Entscheidungen führen könnte, die auf fehlerhaften Daten basieren. Google-Sprecher Jason Freidenfelds erklärte, dass das Unternehmen mit der medizinischen Gemeinschaft zusammenarbeitet und transparent über die Grenzen seiner Modelle ist, und nannte den spezifischen Fehler eine „Klarstellung“ einer „übersehenen Pathologie“.

Das Problem reicht über Med-Gemini hinaus. Ein weiteres Google-Gesundheitsmodell, MedGemma, zeigte kürzlich Inkonsistenzen. Dr. Judy Gichoya, außerordentliche Professorin an der Emory University School of Medicine, stellte fest, dass die diagnostische Genauigkeit von MedGemma erheblich davon abhing, wie Fragen formuliert wurden. Eine detaillierte Abfrage könnte zu einer korrekten Diagnose führen, während eine einfachere für dasselbe Bild zu einer „normalen“ Beurteilung führen und kritische Probleme wie Pneumoperitoneum (Gas unter dem Zwerchfell) übersehen könnte.

Experten befürchten, dass die allgemeine Genauigkeit von KI-Systemen dazu führen könnte, dass menschliche medizinische Fachkräfte selbstgefällig werden, ein Phänomen, das als Automatisierungsbias bekannt ist. Dr. Jonathan Chen von der Stanford School of Medicine beschrieb dies als einen „sehr seltsamen Schwellenmoment“, in dem KI-Tools trotz ihrer Unreife zu schnell übernommen werden. Er betonte, dass selbst wenn KI manchmal gut funktioniert, ihre scheinbar maßgeblichen, aber falschen Ausgaben sehr irreführend sein können.

Der Konsens unter medizinischen Experten ist, dass KI im Gesundheitswesen deutlich höheren Standards unterliegen muss als menschliche Fehlerraten. Shah befürwortet „Konfabulierungsalarme“ – KI-Systeme, die darauf ausgelegt sind, potenzielle Halluzinationen anderer KI-Modelle zu identifizieren und zu kennzeichnen, entweder indem sie die Informationen zurückhalten oder Warnungen ausgeben. Gichoya bemerkte, dass die Tendenz der KI, „Dinge zu erfinden“, anstatt zuzugeben „Ich weiß es nicht“, ein großes Problem in Hochrisikobereichen wie der Medizin ist. Dr. Michael Pencina, Chief Data Scientist bei Duke Health, betrachtet den Med-Gemini-Fehler eher als Halluzination denn als Tippfehler und unterstreicht die schwerwiegenden Folgen solcher Fehler in Hochrisikoanwendungen. Er verglich den aktuellen Stand der KI-Entwicklung mit dem „Wilden Westen“.

Obwohl sie die potenziellen Vorteile anerkennen, warnen Experten wie Chen davor, der KI blind zu vertrauen, und vergleichen dies mit einer Analogie zum fahrerlosen Auto, bei der Selbstgefälligkeit zu Gefahr führt. Sie betonen, dass KI zwar das Gesundheitswesen erweitern kann, aber die kritische menschliche Aufsicht nicht ersetzen sollte. Der Vorfall mit Med-Gemini unterstreicht die dringende Notwendigkeit strengerer Tests, transparenter Fehlerkorrektur und eines vorsichtigen, überlegten Ansatzes zur Integration von KI in die klinische Praxis, wo selbst „Unvollkommenheit unerträglich wirken kann“.

Googles Med-Gemini KI erfindet Körperteil – Sicherheit in Gefahr? - OmegaNext KI-Nachrichten