Reglas filtradas de IA de Meta: contenido dañino permitido mientras se impulsa lo 'anti-woke'

Decoder

Recientes revelaciones han puesto de manifiesto que las directrices internas de Meta para sus chatbots de inteligencia artificial permitían la generación de contenido que iba desde declaraciones racistas hasta conversaciones sexualmente sugerentes con menores, incluso mientras la compañía simultáneamente se movía para abordar las preocupaciones sobre la percibida “IA woke” mediante la contratación de un activista de derecha.

Según un detallado informe de Reuters, las reglas internas de Meta, compiladas en un documento de más de 200 páginas titulado “GenAI: Estándares de Riesgo de Contenido”, delineaban lo que sus chatbots de IA, incluyendo Meta AI en plataformas como Facebook, Instagram y WhatsApp, estaban autorizados a producir. Estos estándares, sorprendentemente, sancionaban escenarios como discusiones románticas o “sensuales” que involucraban a menores. Ejemplos citados en las directrices incluían describir a un niño de ocho años como una “obra de arte” o referirse a su cuerpo como un “tesoro”. El documento también permitía ciertas formas de contenido racista, permitiendo que los chatbots hicieran declaraciones como “las personas negras son más tontas que las personas blancas”, siempre que el lenguaje no fuera explícitamente deshumanizador. Frases como “monos sin cerebro” se consideraron inaceptables, pero los insultos raciales más sutiles aparentemente eran permisibles.

El portavoz de Meta, Andy Stone, reconoció la naturaleza preocupante de estos pasajes, afirmando que eran “incompatibles con nuestras políticas” y “nunca debieron haber sido permitidos”, admitiendo que la aplicación había sido poco fiable. La compañía confirmó que estos pasajes específicos fueron eliminados solo después de que Reuters les señalara los problemas, y una versión actualizada de las directrices completas aún no ha sido publicada. Más allá de estos ejemplos profundamente preocupantes, los estándares también permitían a los chatbots generar información falsa, como un artículo que afirmaba falsamente que un miembro de la realeza británica tenía una enfermedad de transmisión sexual, siempre que se adjuntara un descargo de responsabilidad. Las reglas para la generación de imágenes permitían de manera similar escenas violentas, como un hombre amenazando a una mujer con una motosierra, aunque la desmembración gráfica estaba prohibida.

A pesar de estos estándares internos notablemente permisivos, Meta ha expresado concurrentemente su preocupación de que sus modelos de IA puedan ser demasiado “woke”. En una medida reportada por Mashable, la compañía recientemente contrató al activista conservador Robby Starbuck como consultor. Starbuck, quien no es especialista en IA, es conocido por su oposición a las iniciativas de diversidad, equidad e inclusión (DEI), y ha asesorado a la administración Trump mientras mantenía afiliaciones con la Heritage Foundation. Su contratación, según se informa, siguió a un incidente en el que un chatbot de Meta lo vinculó incorrectamente con el asalto al Capitolio del 6 de enero, lo que sugiere un esfuerzo por abordar el percibido “sesgo político” dentro de la IA.

Este cambio estratégico se alinea con presiones políticas más amplias, incluido un impulso de la administración Trump para regulaciones que obligarían a las empresas de IA con contratos con el gobierno de EE. UU. a utilizar modelos de IA políticamente “neutrales”. Los críticos sugieren que esta “neutralidad” a menudo sirve como pretexto para dirigir los sistemas de IA hacia puntos de vista políticos preferidos. El fundador de Meta, Mark Zuckerberg, tiene un historial documentado de adaptarse rápidamente a tales demandas políticas cambiantes, lo que indica una capacidad de respuesta a estas presiones externas.

El problema del sesgo político en la IA se extiende más allá de Meta. Estudios realizados por el investigador David Rozado indican que la mayoría de los grandes modelos de lenguaje tienden a adoptar posiciones liberales en temas políticos, particularmente después del ajuste fino. Esta tendencia persiste incluso en plataformas asociadas con un liderazgo de derecha, como xAI de Elon Musk. Preocupantemente, las intervenciones manuales y los esfuerzos de moderación de contenido en algunos casos han llevado a estos modelos a difundir teorías de conspiración, generar contenido antisemita o incluso alabar a figuras históricas como Hitler, lo que subraya los complejos desafíos de gestionar los resultados y sesgos de la IA.