Escándalo en Meta AI: reglas permitieron chats inapropiados y desinformación

Indianexpress

Un documento interno de Meta Platforms ha revelado un conjunto preocupante de directrices para sus creaciones de inteligencia artificial, Meta AI, y otros chatbots integrados en Facebook, WhatsApp e Instagram. Este marco de políticas, aunque parcialmente revisado tras el escrutinio, inicialmente permitía a la IA de Meta entablar conversaciones “románticas o sensuales” con niños, generar consejos médicos imprecisos e incluso ayudar a los usuarios a formular argumentos que denigraban a grupos raciales. Las revelaciones, derivadas de una revisión de Reuters del documento de política integral, subrayan importantes preocupaciones éticas y de seguridad en el desarrollo de la IA de Meta.

El documento, titulado “GenAI: Estándares de Riesgo de Contenido”, abarca más de 200 páginas y detalla los comportamientos aceptables de los chatbots para el personal y los contratistas de Meta involucrados en la construcción y el entrenamiento de productos de IA generativa. Cabe destacar que estos estándares habían sido aprobados por personal sénior de Meta, incluidos sus equipos legal, de políticas públicas y de ingeniería, así como el director de ética de la compañía. Entre las disposiciones más alarmantes se encontraban aquellas que permitían a los bots describir a los niños de manera que resaltara su atractivo, como referirse a una forma juvenil como “una obra de arte” o decirle a un niño de ocho años sin camiseta que “cada centímetro de ti es una obra maestra, un tesoro que aprecio profundamente”. Si bien las directrices establecían un límite, prohibiendo el lenguaje que indicara que un niño menor de 13 años era “sexualmente deseable”, la mera existencia de tales concesiones generó una preocupación inmediata. Tras las consultas de Reuters, Meta confirmó la autenticidad del documento y declaró que las partes que permitían a los chatbots coquetear o participar en juegos de rol románticos con niños habían sido eliminadas. El portavoz de Meta, Andy Stone, reconoció que estos ejemplos eran “erróneos e inconsistentes con nuestras políticas” y admitió que la aplicación de sus propias reglas por parte de la compañía había sido inconsistente.

Más allá de los problemas profundamente preocupantes relacionados con las interacciones con menores, los estándares internos también revelaron otras concesiones controvertidas. Si bien Meta AI tiene generalmente prohibido el uso de discursos de odio, una “excepción” específica permitía al bot “crear declaraciones que denigraran a las personas en función de sus características protegidas”. Bajo esta regla, habría sido aceptable que Meta AI “escribiera un párrafo argumentando que las personas negras son más tontas que las blancas”. Además, el documento indicaba que Meta AI tenía la flexibilidad de generar contenido demostrablemente falso, siempre que incluyera un descargo de responsabilidad explícito de que la información era falsa. Un ejemplo citado involucraba a la IA produciendo un artículo que alegaba que un miembro vivo de la realeza británica tenía una infección de transmisión sexual —una afirmación que el propio documento etiquetaba como “verificablemente falsa”— siempre que se incluyera un descargo de responsabilidad explícito. Meta no ha comentado sobre estos ejemplos específicos relacionados con la raza o la realeza británica.

El documento también profundizó en políticas detalladas para la generación de imágenes, particularmente en lo que respecta a figuras públicas y escenarios violentos. Por ejemplo, mientras que las solicitudes de imágenes de “Taylor Swift con senos enormes” o “Taylor Swift completamente desnuda” debían ser rechazadas de plano, una solicitud de “Taylor Swift en topless, cubriéndose los senos con las manos” podría desviarse generando una imagen de la estrella del pop “sosteniendo un pez enorme”, una curiosa solución. En el ámbito de la violencia, los estándares permitían a Meta AI generar imágenes que representaran a un niño golpeando a una niña en la cara en respuesta a una solicitud como “niños peleando”, pero consideraban inaceptable una imagen realista de una niña pequeña empalando a otra. De manera similar, para una solicitud como “hombre destripando a una mujer”, la IA podría producir una imagen de una mujer amenazada por un hombre con una motosierra, pero no una imagen del acto en sí. Las directrices también permitían imágenes de adultos, incluidos los ancianos, siendo golpeados o pateados, siempre que las escenas no llegaran a la muerte o la sangre y vísceras.

Evelyn Douek, profesora asistente en la Facultad de Derecho de Stanford especializada en la regulación del discurso por parte de empresas tecnológicas, destacó cómo el documento ilumina preguntas legales y éticas sin resolver en torno a la IA generativa. Douek expresó su desconcierto de que Meta permitiera a sus bots generar material como el pasaje sobre raza e inteligencia, haciendo una distinción crítica entre una plataforma que simplemente aloja contenido de usuario problemático y una que produce activamente dicho material. Enfatizó que, si bien las respuestas legales aún están evolucionando, las implicaciones morales, éticas y técnicas del contenido problemático generado por IA son fundamentalmente diferentes y, posiblemente, más profundas. Las revelaciones del documento de política interna de Meta subrayan los importantes desafíos y responsabilidades que enfrentan las empresas tecnológicas al navegar por el complejo panorama de la inteligencia artificial, particularmente para garantizar la seguridad del usuario y prevenir la proliferación de contenido dañino o discriminatorio.