Roblox déploie Sentinel, une IA open source, pour la sécurité des enfants en chat

Indianexpress

Roblox, la plateforme de jeux en ligne immensément populaire fréquentée par des millions d’enfants et d’adolescents, a dévoilé un système d’intelligence artificielle open source conçu pour identifier de manière proactive les langages prédateurs au sein de ses chats de jeu. Cette étape importante intervient au milieu de défis juridiques croissants et de critiques publiques, avec des poursuites alléguant que l’entreprise n’a pas fait assez pour protéger ses jeunes utilisateurs des prédateurs en ligne. Une récente plainte, déposée en Iowa, affirme qu’une fille de 13 ans a été mise en contact avec un prédateur adulte sur Roblox, puis enlevée, trafiquée à travers plusieurs États et violée. La plainte soutient spécifiquement que la conception de la plateforme de Roblox rend les enfants particulièrement vulnérables.

Roblox affirme qu’il s’efforce de rendre ses systèmes aussi sûrs que possible par défaut, reconnaissant cependant que “aucun système n’est parfait” et que la détection de préjudices critiques comme le danger potentiel pour les enfants reste l’un des défis les plus redoutables de l’industrie. Le nouveau système d’IA, nommé Sentinel, est spécifiquement conçu pour détecter les premiers indicateurs de danger potentiel pour les enfants, y compris le langage d’exploitation sexuelle. La société rapporte que les informations de Sentinel ont conduit à 1 200 signalements de tentatives potentielles d’exploitation d’enfants soumises au Centre national pour les enfants disparus et exploités au cours du seul premier semestre 2025. En rendant cette technologie open source, Roblox vise à étendre ses capacités de protection à d’autres plateformes confrontées à des problèmes de sécurité en ligne similaires.

Détecter les dangers potentiels pour les enfants grâce à l’IA peut être exceptionnellement complexe, reflétant les difficultés rencontrées par les modérateurs humains. Les premiers échanges conversationnels, tels que des questions apparemment inoffensives comme “quel âge as-tu ?” ou “d’où viens-tu ?”, pourraient ne pas déclencher d’alarmes immédiates. Pourtant, lorsqu’elles sont analysées dans le contexte plus large d’une conversation prolongée, ces phrases peuvent révéler une intention sous-jacente sinistre. Roblox, qui compte plus de 111 millions d’utilisateurs mensuels, interdit déjà le partage de vidéos ou d’images dans les chats et tente de bloquer les informations personnelles comme les numéros de téléphone, bien que les utilisateurs trouvent fréquemment des moyens de contourner ces protections. De plus, les enfants de moins de 13 ans sont restreints de discuter avec d’autres utilisateurs en dehors des jeux, sauf si une autorisation parentale explicite est accordée. Contrairement à de nombreuses autres plateformes, Roblox ne chiffre pas les conversations de chat privées, ce qui lui permet de surveiller et de modérer les interactions.

Matt Kaufman, responsable de la sécurité chez Roblox, a expliqué les limites des méthodes de filtrage précédentes. Il a noté que si les anciens filtres étaient efficaces pour bloquer les grossièretés et diverses formes de langage abusif basées sur des lignes uniques ou de courts extraits de texte, les comportements liés au danger ou au toilettage des enfants se déroulent généralement sur des périodes beaucoup plus longues. Sentinel y remédie en capturant des instantanés d’une minute des chats sur Roblox – traitant environ 6 milliards de messages par jour – et en les analysant pour détecter des dommages potentiels. Pour ce faire, Roblox a développé deux modèles de référence distincts : l’un comprenant des messages bénins et l’autre contenant des chats définitivement identifiés comme violant les politiques de danger pour les enfants.

Cette approche innovante permet à Sentinel de reconnaître des schémas nuisibles qui vont au-delà du simple signalement de mots ou de phrases spécifiques, en considérant plutôt le contexte conversationnel complet. Naren Koneru, vice-président de l’ingénierie pour la confiance et la sécurité chez Roblox, a développé ce point, déclarant que le modèle de référence “négatif” s’améliore continuellement à mesure que de nouveaux acteurs malveillants sont détectés, tandis qu’un modèle “positif” représente le comportement typique et normal de l’utilisateur. Au fur et à mesure que les utilisateurs discutent, le système évalue continuellement leurs interactions, notant si leur comportement s’aligne plus étroitement sur le modèle de référence bénin ou nuisible. Koneru a souligné que cette évaluation ne se base pas sur un seul message mais plutôt sur le schéma cumulatif des interactions sur plusieurs jours. Si le score d’un utilisateur indique une tendance vers le groupe “négatif”, les examinateurs humains sont invités à mener une enquête beaucoup plus approfondie, examinant toutes les conversations, connexions et jeux joués par cet utilisateur. En fin de compte, toutes les interactions à risque identifiées par ce processus sont examinées par des experts en sécurité humaine et, le cas échéant, signalées aux forces de l’ordre.