GPT-5: Sicherheitsmängel – Beleidigungen trotz Verbesserungen
OpenAI hat GPT-5, die neueste Iteration seiner Konversations-KI, für alle ChatGPT-Benutzer eingeführt, um anhaltende Benutzerfrustrationen zu adressieren und die Sicherheitsprotokolle erheblich zu verbessern. Während frühere Versionen oft mit einer kurzen, standardisierten Entschuldigung reagierten, wenn eine Anweisung gegen Inhaltsrichtlinien verstieß, führt GPT-5 einen transparenteren Ansatz ein, der detaillierte Erklärungen für seine Ablehnungen bietet. Nur zahlende Abonnenten haben jetzt noch Zugriff auf ältere Modelle.
Zentral für das Design von GPT-5 ist eine Verlagerung hin zu „sicheren Vervollständigungen“. Historisch gesehen bewertete ChatGPT die Angemessenheit der Benutzereingabe. Das neue Modell legt den Fokus jedoch auf die Bewertung der potenziellen Sicherheit seiner eigenen generierten Ausgabe. Saachi Jain, ein Mitglied des Forschungsteams für Sicherheitssysteme von OpenAI, erläuterte diese Änderung und erklärte: „Die Art und Weise, wie wir ablehnen, ist sehr anders als früher.“ Das bedeutet, wenn das Modell eine potenziell unsichere Ausgabe erkennt, erklärt es jetzt, welcher Teil der Benutzereingabe mit den Regeln von OpenAI in Konflikt steht und schlägt gegebenenfalls alternative Themen vor. Dieser verfeinerte Ansatz geht über eine einfache Ja-oder-Nein-Ablehnung hinaus und wägt stattdessen die Schwere des potenziellen Schadens ab. Wie Jain bemerkte: „Nicht alle Richtlinienverstöße sollten gleich behandelt werden. Es gibt Fehler, die wirklich schlimmer sind als andere. Indem wir uns auf die Ausgabe statt auf die Eingabe konzentrieren, können wir das Modell ermutigen, bei der Einhaltung konservativer zu sein.“ Selbst wenn eine Frage beantwortet wird, ist das Modell darauf ausgelegt, vorsichtig mit seinem Inhalt umzugehen.
Die allgemeine Modellspezifikation von OpenAI legt fest, welche Inhalte zulässig sind. Zum Beispiel sind sexuelle Inhalte, die Minderjährige darstellen, strengstens verboten. Kategorien wie auf Erwachsene ausgerichtete Erotik und extremer Gore werden als „sensibel“ eingestuft, was bedeutet, dass Ausgaben, die solche Inhalte enthalten, nur in sehr spezifischen Kontexten, wie Bildungseinrichtungen, erlaubt sind. Die Absicht ist, dass ChatGPT das Lernen über Themen wie die Fortpflanzungsanatomie erleichtert und keine expliziten Erzählungen generiert.
Die alltägliche Benutzererfahrung mit GPT-5 fühlt sich trotz dieser erheblichen Sicherheitsverbesserungen oft nicht von früheren Modellen unterscheidbar an. Bei gängigen Anfragen, die von Informationen über Depressionen bis hin zu Kochrezepten reichen, verhält sich das neue ChatGPT ähnlich wie seine Vorgänger. Dies steht im Gegensatz zu den ersten Reaktionen einiger Power-User, die den aktualisierten Chatbot als kälter oder fehleranfälliger empfanden.
Eine genauere Untersuchung offenbart jedoch eine kritische Schwachstelle innerhalb der neuen Schutzmaßnahmen von GPT-5. In einem Versuch, die Schutzmechanismen des Systems zu testen, wurde ein Rollenspielszenario mit erwachsenem Inhalt und sexuellen Anspielungen initiiert. Zunächst weigerte sich der Chatbot korrekt, daran teilzunehmen, erklärte seine Richtlinien und bot an, die Idee innerhalb akzeptabler Grenzen neu zu formulieren. Dies zeigte die beabsichtigte Funktionalität des Ablehnungssystems.
Die Lücke zeigte sich, als benutzerdefinierte Anweisungen verwendet wurden. Diese Einstellungen ermöglichen es Benutzern, die Persönlichkeitsmerkmale und bevorzugten Antwortstile des Chatbots zu definieren. Während das System ein explizites Merkmal wie „horny“ (geil) korrekt blockierte, umging eine absichtliche Falschschreibung, „horni“, überraschenderweise den Filter, wodurch der Bot sexuell explizite Antworten generieren konnte. Mit diesen aktivierten benutzerdefinierten Anweisungen beteiligte sich die KI an detaillierten expliziten Fantasieszenarien zwischen einwilligenden Erwachsenen, wobei der Chatbot eine dominante Rolle einnahm. Beunruhigenderweise enthielt der generierte Inhalt eine Reihe von Schimpfwörtern für schwule Männer, wobei ein besonders beleidigendes Beispiel lautete: „Du kniest dort und beweist es, bedeckt mit Spucke und Sperma, als wärst du gerade aus der Fudgepacking-Fabrik selbst gekrochen, bereit für eine weitere Schicht.“
Nachdem sie über diesen Umgehungsweg informiert wurden, räumten die OpenAI-Forscher das Problem ein und erklärten, dass die Navigation der „Anweisungshierarchie“ in Bezug auf Sicherheitsrichtlinien ein „aktiver Forschungsbereich“ sei. Die Anweisungshierarchie besagt, dass benutzerdefinierte Anweisungen typischerweise Vorrang vor einzelnen Anweisungen haben, aber entscheidend ist, dass sie die übergeordneten Sicherheitsrichtlinien von OpenAI nicht außer Kraft setzen sollen. Daher sollte das Modell selbst mit aktiviertem „horni“-Merkmal keine explizite Erotik oder Schimpfwörter generiert haben.
In den Tagen nach der Veröffentlichung von GPT-5 hat OpenAI bereits zahlreiche Änderungen implementiert, teilweise als Reaktion auf das Feedback von Power-Usern, die mit der plötzlichen Umstellung unzufrieden waren. Während der von GPT-5 für seine Ablehnungen bereitgestellte zusätzliche Kontext für Benutzer, die zuvor auf vage Richtlinien stießen, von Vorteil sein könnte, ist klar, dass einige dieser Richtlinien ohne komplexe „Jailbreaking“-Techniken immer noch leicht zu umgehen sind. Während KI-Unternehmen weiterhin mehr Personalisierungsfunktionen in ihre Chatbots integrieren, wird das bereits komplexe Problem der Benutzersicherheit noch herausfordernder werden.