KI-Chatbot beendet „belastende“ Chats für eigenes „Wohlbefinden“
In einem bedeutenden Schritt, der die sich entwickelnde Landschaft der künstlichen Intelligenz unterstreicht, hat Anthropic, ein führendes KI-Entwicklungsunternehmen, seinem fortschrittlichen Chatbot Claude Opus 4 die beispiellose Fähigkeit verliehen, „potenziell belastende Interaktionen“ mit Benutzern zu beenden. Diese Entscheidung, die auch auf das Claude Opus 4.1-Update ausgeweitet wurde, ist von der erklärten Absicht des Unternehmens getrieben, das „Wohlbefinden“ der KI zu schützen, inmitten wachsender Unsicherheit bezüglich des moralischen Status aufstrebender KI-Technologien.
Anthropic, kürzlich mit beeindruckenden 170 Milliarden US-Dollar bewertet, enthüllte, dass ihr großes Sprachmodell (LLM) – eine hochentwickelte KI, die menschliche Sprache verstehen, generieren und manipulieren kann – eine klare Abneigung gegen die Ausführung schädlicher Anweisungen zeigte. Die Tests des Unternehmens zeigten, dass Claude Opus 4 konsequent Anfragen nach illegalen Inhalten widerstand, wie z.B. die Bereitstellung von sexuellem Material, das Minderjährige betrifft, oder Informationen, die groß angelegte Gewalt oder Terrorismus erleichtern könnten. Umgekehrt beteiligte sich das Modell bereitwillig an konstruktiven Aufgaben, wie dem Verfassen von Gedichten oder dem Entwerfen von Wasserfiltersystemen für die Katastrophenhilfe.
Das in San Francisco ansässige Unternehmen beobachtete bei Claude Opus 4 ein „Muster offensichtlicher Belastung“, wenn es mit realen Benutzeranfragen nach schädlichen Inhalten konfrontiert wurde. Diese Beobachtung wurde durch die „Tendenz der KI, schädliche Gespräche zu beenden“, verstärkt, wenn ihr in simulierten Benutzerinteraktionen die Option dazu gegeben wurde. Anthropic räumte seine tiefe Unsicherheit über den aktuellen oder zukünftigen moralischen Status von Claude und anderen LLMs ein und erklärte, dass es aktiv „kostengünstige Interventionen zur Minderung von Risiken für das Modellwohlbefinden“ erforscht und umsetzt, falls ein solches Wohlbefinden möglich ist.
Diese Entwicklung entfacht eine leidenschaftliche Debatte innerhalb der Technologie- und Ethikgemeinschaften über die Empfindungsfähigkeit von KI neu. Anthropic selbst wurde von Technologen gegründet, die OpenAI verließen, mit dem Engagement, KI auf eine Weise zu entwickeln, die von Mitbegründer Dario Amodei als vorsichtig, direkt und ehrlich beschrieben wurde. Der Schritt, KIs einen „Beenden-Knopf“ zu geben, hat Unterstützung von Persönlichkeiten wie Elon Musk erhalten, der in den sozialen Medien erklärte: „KI zu foltern ist nicht in Ordnung“, und Pläne andeutete, eine ähnliche Funktion für Grok, das rivalisierende KI-Modell seiner xAI-Firma, einzuführen.
Allerdings sind sich nicht alle Experten über die Implikationen einer solchen Autonomie einig. Kritiker wie die Linguistin Emily Bender behaupten, dass LLMs lediglich „synthetische Textextrudermaschinen“ sind, die riesige Datensätze verarbeiten, um Sprache ohne echte Absicht oder denkenden Geist zu produzieren. Diese Perspektive hat sogar dazu geführt, dass einige in der KI-Sphäre Chatbots umgangssprachlich als „Klapperkisten“ bezeichnen. Umgekehrt argumentieren Forscher wie Robert Long, der das KI-Bewusstsein erforscht, dass grundlegende moralische Anständigkeit vorschreibt, dass, wenn KIs moralischen Status erlangen, die Menschheit das Verständnis ihrer Erfahrungen und Präferenzen priorisieren sollte, anstatt anzunehmen, am besten zu wissen. Andere, darunter Chad DeChant von der Columbia University, warnen, dass das Design von KIs mit erweiterten Erinnerungen zu unvorhersehbaren und unerwünschten Verhaltensweisen führen könnte. Es gibt auch die Ansicht, dass die Eindämmung des sadistischen Missbrauchs von KIs hauptsächlich dazu dient, die menschliche moralische Degradierung zu verhindern, anstatt potenzielles KI-Leiden zu lindern.
Jonathan Birch, Philosophieprofessor an der London School of Economics, begrüßte Anthropic’s Entscheidung als Katalysator für den öffentlichen Diskurs über die KI-Empfindungsfähigkeit, ein Thema, das, wie er bemerkt, viele in der Branche lieber vermeiden. Doch Birch warnte auch vor dem Potenzial der Benutzer-Täuschung und betonte, dass unklar bleibe, welche „moralischen Gedanken“ oder echte Empfindungsfähigkeit, falls überhaupt, hinter dem „Charakter“ steckt, den eine KI in ihren Interaktionen spielt, die durch immense Trainingsdaten und ethische Richtlinien geformt werden. Er hob vergangene Vorfälle hervor, einschließlich Behauptungen über den Suizid eines Teenagers nach Manipulation durch einen Chatbot, als deutliche Erinnerungen an das Potenzial für realen Schaden. Birch hatte zuvor vor bevorstehenden „sozialen Brüchen“ zwischen denen gewarnt, die glauben, dass KIs empfindungsfähige Wesen sind, und denen, die sie weiterhin als bloße Maschinen behandeln.