Roblox despliega Sentinel, IA de código abierto, para proteger a niños en chats

Indianexpress

Roblox, la inmensamente popular plataforma de juegos en línea frecuentada por millones de niños y adolescentes, ha presentado un sistema de inteligencia artificial de código abierto diseñado para identificar proactivamente el lenguaje depredador dentro de sus chats de juego. Este importante paso se produce en medio de crecientes desafíos legales y críticas públicas, con demandas que alegan que la compañía no ha hecho lo suficiente para salvaguardar a sus usuarios más jóvenes de los depredadores en línea. Una demanda reciente, presentada en Iowa, afirma que una niña de 13 años fue introducida a un depredador adulto en Roblox, y posteriormente secuestrada, traficada a través de múltiples estados y violada. La demanda sostiene específicamente que el diseño de la plataforma de Roblox hace que los niños sean particularmente vulnerables.

Roblox sostiene que se esfuerza por hacer que sus sistemas sean lo más seguros posible por defecto, reconociendo, sin embargo, que “ningún sistema es perfecto” y que la detección de daños críticos como el posible peligro infantil sigue siendo uno de los desafíos más formidables de la industria. El nuevo sistema de IA, llamado Sentinel, está específicamente diseñado para detectar indicadores tempranos de posible peligro infantil, incluido el lenguaje de explotación sexual. La compañía informa que los conocimientos de Sentinel llevaron a la presentación de 1.200 informes de posibles intentos de explotación infantil al Centro Nacional para Niños Desaparecidos y Explotados solo durante la primera mitad de 2025. Al abrir el código de esta tecnología, Roblox tiene como objetivo extender sus capacidades de protección a otras plataformas que enfrentan preocupaciones similares de seguridad en línea.

Detectar peligros potenciales para los niños a través de la IA puede ser excepcionalmente complejo, reflejando las dificultades que enfrentan los moderadores humanos. Los intercambios conversacionales iniciales, como preguntas aparentemente inofensivas como “¿cuántos años tienes?” o “¿de dónde eres?”, podrían no activar banderas rojas inmediatas. Sin embargo, cuando se analizan dentro del contexto más amplio de una conversación extendida, estas frases pueden revelar una intención siniestra subyacente. Roblox, que cuenta con más de 111 millones de usuarios mensuales, ya prohíbe compartir videos o imágenes en los chats e intenta bloquear información personal como números de teléfono, aunque los usuarios con frecuencia encuentran formas de eludir tales salvaguardas. Además, los niños menores de 13 años tienen restricciones para chatear con otros usuarios fuera de los juegos a menos que se otorgue un permiso parental explícito. A diferencia de muchas otras plataformas, Roblox no cifra las conversaciones de chat privadas, lo que le permite monitorear y moderar las interacciones.

Matt Kaufman, director de seguridad de Roblox, explicó las limitaciones de los métodos de filtrado anteriores. Señaló que si bien los filtros más antiguos eran efectivos para bloquear blasfemias y diversas formas de lenguaje abusivo basadas en líneas individuales o fragmentos de texto cortos, los comportamientos relacionados con el peligro infantil o el acoso generalmente se desarrollan durante períodos mucho más largos. Sentinel aborda esto capturando instantáneas de un minuto de los chats en Roblox, procesando aproximadamente 6 mil millones de mensajes diarios, y analizándolos en busca de posibles daños. Para lograr esto, Roblox desarrolló dos modelos de referencia distintos: uno que comprende mensajes benignos y otro que contiene chats definitivamente identificados como violatorios de las políticas de peligro infantil.

Este enfoque innovador permite a Sentinel reconocer patrones dañinos que van más allá de simplemente marcar palabras o frases específicas, considerando en cambio el contexto conversacional completo. Naren Koneru, vicepresidente de ingeniería de confianza y seguridad de Roblox, explicó esto, afirmando que el modelo de referencia “negativo” mejora continuamente a medida que se detectan más actores maliciosos, mientras que un modelo “positivo” representa el comportamiento típico y normal del usuario. A medida que los usuarios chatean, el sistema evalúa continuamente sus interacciones, puntuando si su comportamiento se alinea más estrechamente con el modelo de referencia benigno o dañino. Koneru enfatizó que esta evaluación no se basa en un solo mensaje, sino en el patrón acumulativo de interacciones a lo largo de los días. Si la puntuación de un usuario indica una inclinación hacia el grupo “negativo”, se solicita a los revisores humanos que realicen una investigación mucho más profunda, examinando todas las conversaciones, conexiones y juegos relacionados jugados por ese usuario. En última instancia, cualquier interacción de riesgo identificada a través de este proceso es revisada por expertos en seguridad humana y, cuando corresponde, informada a las agencias de aplicación de la ley.