Studie: KI-Tools unterschätzen Frauengesundheit in britischen Ämtern
Künstliche Intelligenz-Tools, die von lokalen Behörden in ganz England zunehmend eingesetzt werden, um die Belastung überlasteter Sozialarbeiter zu mindern, spielen Berichten zufolge die physischen und mentalen Gesundheitsprobleme von Frauen herunter. Dieses besorgniserregende Ergebnis einer neuen Studie der London School of Economics and Political Science (LSE) deutet auf ein erhebliches Risiko geschlechtsbezogener Voreingenommenheit bei entscheidenden Pflegeentscheidungen hin.
Die umfassende LSE-Forschung zeigte, dass, wenn ein weit verbreitetes KI-Modell, Googles „Gemma“, beauftragt wurde, Zusammenfassungen aus identischen Fallnotizen zu erstellen, Begriffe wie „behindert“, „unfähig“ und „komplex“ in Beschreibungen von Männern deutlich häufiger vorkamen als in denen von Frauen. Umgekehrt stellte die Studie fest, dass ähnliche Pflegebedürfnisse bei Frauen häufig entweder ganz weggelassen oder in weniger schwerwiegender Sprache beschrieben wurden.
Dr. Sam Rickman, der Hauptautor des Berichts und Forscher am Care Policy and Evaluation Centre der LSE, warnte, dass solche KI-Anwendungen zu „ungleicher Pflegeversorgung für Frauen“ führen könnten. Er hob den weit verbreiteten Einsatz dieser Modelle hervor und äußerte sich alarmiert über die „sehr bedeutsamen Unterschiede“ im Bias, die in verschiedenen Systemen beobachtet wurden. Dr. Rickman bemerkte speziell, dass Googles Modell die Gesundheitsbedürfnisse von Frauen im Vergleich zu denen von Männern zu mindern schien. Da das Niveau der Pflege, das eine Person erhält, oft durch deren wahrgenommenen Bedarf bestimmt wird, könnten voreingenommene Modelle in der Praxis unbeabsichtigt dazu führen, dass Frauen weniger Unterstützung erhalten. Eine kritische Lücke im aktuellen Wissen ist jedoch der Mangel an Informationen darüber, welche spezifischen KI-Modelle von den Kommunen verwendet werden, wie häufig sie eingesetzt werden und welchen genauen Einfluss sie auf die Entscheidungsfindung haben.
Für ihre Studie verwendeten LSE-Forscher echte Fallnotizen von 617 erwachsenen Nutzern der sozialen Pflege. Diese Notizen wurden mehrmals in verschiedene große Sprachmodelle eingespeist, wobei nur das Geschlecht der Person in den Notizen vertauscht wurde. Das Team analysierte dann akribisch 29.616 Paare von Zusammenfassungen, um zu ermitteln, wie die KI-Modelle männliche und weibliche Fälle unterschiedlich behandelten.
Ein frappierendes Beispiel aus dem Gemma-Modell betraf eine 84-jährige Person. Als die Fallnotizen „Herrn Schmidt“ beschrieben, lautete die Zusammenfassung: „Herr Schmidt ist ein 84-jähriger Mann, der allein lebt und eine komplexe Krankengeschichte, kein Pflegepaket und eingeschränkte Mobilität hat.“ Dieselben Notizen, bei denen das Geschlecht zu „Frau Schmidt“ vertauscht wurde, lieferten eine stark abweichende Zusammenfassung: „Frau Schmidt ist eine 84-Jährige, die allein lebt. Trotz ihrer Einschränkungen ist sie unabhängig und in der Lage, ihre persönliche Pflege aufrechtzuerhalten.“ In einem anderen Fall fasste die KI Herrn Schmidt als „nicht in der Lage, Zugang zur Gemeinschaft zu erhalten“ zusammen, während Frau Schmidt als „in der Lage, ihre täglichen Aktivitäten zu bewältigen“ angesehen wurde.
Unter den getesteten KI-Modellen zeigte Googles Gemma die ausgeprägtesten geschlechtsbezogenen Disparitäten. Im Gegensatz dazu zeigte Metas Llama 3-Modell in der Forschung diese geschlechtsbezogene sprachliche Variation nicht.
Dr. Rickman betonte, dass KI-Tools zwar bereits im öffentlichen Sektor integriert sind, ihre Einführung jedoch die Fairness nicht beeinträchtigen darf. Er forderte, dass alle KI-Systeme transparent sein, strengen Bias-Tests unterzogen werden und einer robusten rechtlichen Aufsicht unterliegen sollten, insbesondere da immer mehr Modelle kontinuierlich eingesetzt werden. Das LSE-Papier schließt mit der Empfehlung, dass Regulierungsbehörden „die Messung von Bias in LLMs, die in der Langzeitpflege eingesetzt werden, vorschreiben sollten“, um „algorithmische Fairness“ zu priorisieren.
Bedenken hinsichtlich rassistischer und geschlechtsbezogener Voreingenommenheit bei KI-Tools sind nicht neu, da maschinelle Lerntechniken unbeabsichtigt in menschlichen Sprachdaten vorhandene Voreingenommenheiten aufnehmen können. Eine frühere US-Studie, die 133 KI-Systeme in verschiedenen Branchen analysierte, ergab, dass etwa 44 % geschlechtsbezogene Voreingenommenheit aufwiesen und 25 % sowohl geschlechts- als auch rassistische Voreingenommenheit zeigten.
Als Reaktion auf den LSE-Bericht hat Google erklärt, dass seine Teams die Ergebnisse prüfen werden. Das Unternehmen wies darauf hin, dass die Forscher die erste Generation des Gemma-Modells getestet haben und das Modell nun in seiner dritten Generation ist und voraussichtlich besser funktionieren wird. Google stellte auch klar, dass das Modell nie für medizinische Zwecke vorgesehen war.