Roblox setzt Open-Source-KI Sentinel für Kindersicherheit in Chats ein
Roblox, die immens beliebte Online-Gaming-Plattform, die von Millionen von Kindern und Teenagern frequentiert wird, hat ein Open-Source-System für künstliche Intelligenz vorgestellt, das darauf ausgelegt ist, proaktiv räuberische Sprache in ihren Game-Chats zu identifizieren. Dieser bedeutende Schritt erfolgt inmitten zunehmender rechtlicher Herausforderungen und öffentlicher Kritik, wobei Klagen behaupten, das Unternehmen habe nicht genug getan, um seine jüngeren Nutzer vor Online-Raubtieren zu schützen. Eine kürzlich in Iowa eingereichte Klage behauptet, ein 13-jähriges Mädchen sei auf Roblox einem erwachsenen Raubtier vorgestellt, anschließend entführt, über mehrere Bundesstaaten verschleppt und vergewaltigt worden. Die Klage behauptet ausdrücklich, dass das Plattformdesign von Roblox Kinder besonders anfällig mache.
Roblox betont, dass es sich bemüht, seine Systeme standardmäßig so sicher wie möglich zu gestalten, räumt jedoch ein, dass “kein System perfekt ist” und dass die Erkennung kritischer Schäden wie potenzieller Kindergefährdung eine der größten Herausforderungen der Branche bleibt. Das neue KI-System namens Sentinel ist speziell dafür entwickelt, frühe Indikatoren für eine mögliche Kindergefährdung, einschließlich sexuell ausbeuterischer Sprache, zu erkennen. Das Unternehmen berichtet, dass die Erkenntnisse von Sentinel allein im ersten Halbjahr 2025 zur Übermittlung von 1.200 Berichten über potenzielle Kinderpornografie-Versuche an das National Center for Missing and Exploited Children führten. Durch die Bereitstellung dieser Technologie als Open Source möchte Roblox seine Schutzfähigkeiten auf andere Plattformen ausweiten, die ähnliche Online-Sicherheitsbedenken haben.
Potenzielle Gefahren für Kinder durch KI zu erkennen, kann außerordentlich komplex sein und spiegelt die Schwierigkeiten wider, denen menschliche Moderatoren gegenüberstehen. Erste Gesprächsaustausche, wie scheinbar harmlose Fragen wie “Wie alt bist du?” oder “Woher kommst du?”, lösen möglicherweise keine sofortigen Warnsignale aus. Doch wenn sie im breiteren Kontext einer längeren Unterhaltung analysiert werden, können diese Phrasen eine finstere zugrunde liegende Absicht offenbaren. Roblox, das über 111 Millionen monatliche Nutzer zählt, verbietet bereits das Teilen von Videos oder Bildern in Chats und versucht, persönliche Informationen wie Telefonnummern zu blockieren, obwohl Nutzer häufig Wege finden, solche Schutzmaßnahmen zu umgehen. Außerdem ist Kindern unter 13 Jahren das Chatten mit anderen Nutzern außerhalb von Spielen untersagt, es sei denn, es liegt eine ausdrückliche elterliche Genehmigung vor. Im Gegensatz zu vielen anderen Plattformen verschlüsselt Roblox private Chat-Konversationen nicht, was es ihm ermöglicht, Interaktionen zu überwachen und zu moderieren.
Matt Kaufman, Robloxs Chief Safety Officer, erklärte die Einschränkungen früherer Filtermethoden. Er stellte fest, dass ältere Filter zwar wirksam waren, um Schimpfwörter und verschiedene Formen missbräuchlicher Sprache basierend auf einzelnen Zeilen oder kurzen Textausschnitten zu blockieren, Verhaltensweisen im Zusammenhang mit Kindergefährdung oder Anbahnung jedoch typischerweise über viel längere Zeiträume ablaufen. Sentinel begegnet dem, indem es einminütige Chat-Schnappschüsse über Roblox hinweg erfasst – täglich etwa 6 Milliarden Nachrichten verarbeitet – und sie auf potenziellen Schaden analysiert. Um dies zu erreichen, entwickelte Roblox zwei verschiedene Referenzmodelle: eines, das gutartige Nachrichten umfasst, und ein anderes, das Chats enthält, die eindeutig als Verstoß gegen die Richtlinien zur Kindergefährdung identifiziert wurden.
Dieser innovative Ansatz ermöglicht es Sentinel, schädliche Muster zu erkennen, die über das bloße Kennzeichnen spezifischer Wörter oder Phrasen hinausgehen, indem stattdessen der gesamte Gesprächskontext berücksichtigt wird. Naren Koneru, Robloxs Vizepräsident für Technik für Vertrauen und Sicherheit, erläuterte dies und erklärte, dass das “negative” Referenzmodell sich kontinuierlich verbessert, wenn mehr bösartige Akteure erkannt werden, während ein “positives” Modell typisches, normales Nutzerverhalten darstellt. Während Nutzer chatten, bewertet das System kontinuierlich ihre Interaktionen und bewertet, ob ihr Verhalten stärker dem gutartigen oder dem schädlichen Referenzmodell entspricht. Koneru betonte, dass diese Bewertung nicht auf einer einzelnen Nachricht basiert, sondern auf dem kumulativen Muster der Interaktionen über Tage hinweg. Wenn der Score eines Nutzers eine Tendenz zum “negativen” Cluster anzeigt, werden menschliche Prüfer dazu aufgefordert, eine viel tiefere Untersuchung durchzuführen, wobei alle relevanten Gespräche, Verbindungen und Spiele dieses Nutzers überprüft werden. Letztendlich werden alle riskanten Interaktionen, die durch diesen Prozess identifiziert werden, von menschlichen Sicherheitsexperten überprüft und gegebenenfalls den Strafverfolgungsbehörden gemeldet.