MIT entwickelt Open-Source-KI-Tool für Textklassifizierer

News

Da große Sprachmodelle immer stärker in unser tägliches Leben eindringen, war die Notwendigkeit, ihre Zuverlässigkeit rigoros zu testen und zu gewährleisten, noch nie so groß. Ob es darum geht, festzustellen, ob eine Filmrezension eine glühende Empfehlung oder eine vernichtende Kritik ist, eine Nachricht als Wirtschaft oder Technologie zu kategorisieren oder einen Online-Chatbot zu überwachen, um zu verhindern, dass er unautorisierte Finanzberatung oder medizinische Fehlinformationen verbreitet – diese automatisierten Bewertungen werden heute überwiegend von hochentwickelten Algorithmen, bekannt als Textklassifizierer, gehandhabt. Die entscheidende Frage bleibt jedoch: Wie können wir die Genauigkeit dieser Klassifizierungen wirklich feststellen?

Ein Team des Laboratory for Information and Decision Systems (LIDS) des MIT hat kürzlich einen innovativen Ansatz vorgestellt, der nicht nur die Wirksamkeit dieser Klassifizierer misst, sondern auch einen klaren Weg zur Verbesserung ihrer Präzision aufzeigt. Die neue Bewertungs- und Abhilfesoftware, entwickelt vom leitenden Forschungswissenschaftler Kalyan Veeramachaneni zusammen mit seinen Studenten Lei Xu und Sarah Alnegheimish und zwei weiteren Mitarbeitern, wird kostenlos zum Download angeboten und leistet einen bedeutenden Beitrag zur breiteren KI-Gemeinschaft.

Traditionell umfasst das Testen von Klassifizierungssystemen die Erstellung von „synthetischen Beispielen“ – Sätzen, die so gestaltet sind, dass sie denen ähneln, die bereits klassifiziert wurden. Forscher könnten zum Beispiel einen Satz nehmen, der zuvor als positive Bewertung gekennzeichnet wurde, und ein oder zwei Wörter subtil ändern, um den Klassifizierer dazu zu bringen, ihn als negativ zu interpretieren, selbst wenn die Kernbedeutung unverändert bleibt. Ähnlich könnte ein Satz, der als Fehlinformation gilt, subtil angepasst werden, um fälschlicherweise als korrekt klassifiziert zu werden. Diese irreführenden Beispiele, bekannt als adversarielle Beispiele, legen Schwachstellen in den Klassifizierern offen. Obwohl verschiedene Methoden versucht wurden, diese Schwachstellen aufzudecken, scheitern bestehende Techniken oft und übersehen viele kritische Instanzen.

Die Nachfrage nach solchen Bewertungstools wächst, insbesondere da Unternehmen zunehmend Chatbots für verschiedene Zwecke einsetzen und bestrebt sind, sicherzustellen, dass ihre Antworten angemessen und sicher sind. Eine Bank könnte beispielsweise einen Chatbot für routinemäßige Kundenanfragen, wie die Überprüfung von Kontoständen, verwenden, muss aber rigoros sicherstellen, dass er niemals unbeabsichtigt Finanzberatung gibt, was die Institution haftbar machen könnte. Wie Veeramachaneni erklärt: „Bevor die Antwort des Chatbots dem Endbenutzer gezeigt wird, möchten sie den Textklassifizierer verwenden, um zu erkennen, ob er Finanzberatung gibt oder nicht.“ Dies erfordert eine robuste Prüfung des Klassifizierers selbst.

Die Methode des MIT-Teams nutzt genau die Technologie, die sie verbessern will: große Sprachmodelle (LLMs). Wenn ein adversarielles Beispiel erstellt wird – ein leicht modifizierter Satz, der die ursprüngliche Bedeutung beibehält, aber den Klassifizierer täuscht –, wird ein weiteres LLM eingesetzt, um die semantische Äquivalenz zu bestätigen. Wenn das LLM verifiziert, dass zwei Sätze die gleiche Bedeutung vermitteln, der Klassifizierer ihnen jedoch unterschiedliche Labels zuweist, dann, so Veeramachaneni, „ist das ein adversarieller Satz – er kann den Klassifizierer täuschen.“ Interessanterweise entdeckten die Forscher, dass die meisten dieser erfolgreichen adversariellen Angriffe nur eine einzige Wortänderung beinhalteten, eine Subtilität, die von denen, die LLMs zur Generierung der alternativen Sätze verwenden, oft unbemerkt bleibt.

Durch eine umfassende Analyse von Tausenden von Beispielen, ebenfalls unter Verwendung von LLMs, stellte das Team fest, dass bestimmte spezifische Wörter einen überproportionalen Einfluss auf die Änderung von Klassifizierungen hatten. Diese entscheidende Erkenntnis ermöglicht einen viel gezielteren Ansatz zur Überprüfung der Genauigkeit eines Klassifizierers, der sich auf eine kleine Untergruppe von Wörtern konzentriert, die stets den größten Unterschied bewirken. Lei Xu, eine kürzlich von LIDS promovierte Absolventin, deren Doktorarbeit wesentlich zu dieser Analyse beitrug, „verwendete viele interessante Schätztechniken, um herauszufinden, welche die mächtigsten Wörter sind, die die Gesamtklassifizierung ändern und den Klassifizierer täuschen können“, erläuterte Veeramachaneni. Dieser Ansatz rationalisiert den Rechenaufwand für die Generierung adversarieller Beispiele drastisch.

Darauf aufbauend setzt das System LLMs weiter ein, um Wörter zu identifizieren, die eng mit diesen „mächtigen“ Begriffen verwandt sind, und erstellt eine umfassende Rangliste basierend auf ihrem Einfluss auf die Klassifizierungsergebnisse. Einmal identifiziert, können diese adversariellen Sätze dann verwendet werden, um den Klassifizierer neu zu trainieren, wodurch dessen Robustheit gegenüber solchen Fehlern erheblich verbessert wird.

Die Auswirkungen einer erhöhten Genauigkeit von Klassifizierern gehen weit über die einfache Kategorisierung von Nachrichtenartikeln oder Filmrezensionen hinaus. Zunehmend werden diese Systeme in Umgebungen mit hohem Risiko eingesetzt, wo eine Fehlklassifizierung schwerwiegende Folgen haben kann. Dies umfasst die Verhinderung der unbeabsichtigten Freigabe sensibler medizinischer, finanzieller oder sicherheitsrelevanter Informationen, die Lenkung kritischer Forschung in Bereichen wie der Biomedizin oder die Identifizierung und Blockierung von Hassreden und Fehlinformationen.

Als direktes Ergebnis dieser Forschung hat das Team eine neue Metrik, genannt „p“, eingeführt, die die Widerstandsfähigkeit eines Klassifizierers gegen Einzelwortangriffe quantifiziert. In Anerkennung der kritischen Bedeutung der Minderung solcher Fehlklassifizierungen hat das Forschungsteam seine Tools offen zugänglich gemacht. Das Paket besteht aus zwei Schlüsselkomponenten: SP-Attack, das adversarielle Sätze generiert, um Klassifizierer in verschiedenen Anwendungen zu testen, und SP-Defense, das entwickelt wurde, um die Robustheit des Klassifizierers durch die Verwendung dieser adversariellen Beispiele für das Modelltraining zu verbessern.

In einigen Tests, bei denen konkurrierende Methoden adversariellen Angriffen eine Erfolgsrate von 66 Prozent ermöglichten, halbierte das System des MIT-Teams diese fast und senkte die Angriffs-Erfolgsrate auf 33,7 Prozent. Während andere Anwendungen eine bescheidenere Verbesserung von 2 Prozent zeigten, sind selbst solch scheinbar kleine Gewinne immens bedeutsam, wenn man die Milliarden von Interaktionen berücksichtigt, die diese Systeme täglich abwickeln, wobei selbst ein geringer Prozentsatz Millionen von Transaktionen beeinflussen kann. Die Ergebnisse des Teams wurden am 7. Juli in der Zeitschrift Expert Systems in einem Artikel von Xu, Veeramachaneni und Alnegheimish von LIDS, zusammen mit Laure Berti-Equille vom IRD in Marseille, Frankreich, und Alfredo Cuesta-Infante von der Universidad Rey Juan Carlos in Spanien, veröffentlicht.