Filtrado de Datos: Seguridad de IA Antimanipulación para LLMs de Código Abierto
Las salvaguardas actuales para los grandes modelos de lenguaje (LLM) a menudo se quedan cortas, particularmente para los modelos de código abierto que ofrecen una transparencia y accesibilidad sin igual. Estos modelos, cuyo funcionamiento interno está completamente expuesto, presentan desafíos de seguridad únicos, ya que las intervenciones tradicionales posteriores al entrenamiento son fácilmente eludidas. Un nuevo estudio de EleutherAI, detallado en su artículo “Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs”, propone un cambio radical: en lugar de enseñar a los modelos lo que no deben decir, evitar que aprendan conocimientos peligrosos desde el principio.
Las salvaguardas predominantes de los LLM de hoy en día dependen en gran medida de técnicas de supresión post-hoc, como el entrenamiento de rechazo o los filtros de entrada, diseñadas para evitar que los modelos generen contenido indeseable. Sin embargo, como demuestran innumerables exploits de “jailbreak”, estas intervenciones son inherentemente frágiles. Su eficacia se limita aún más a escenarios en los que los usuarios interactúan con los modelos exclusivamente a través de API monitoreadas por el desarrollador. Para los modelos de código abierto, que pueden descargarse, modificarse y ajustarse libremente, estos protocolos de seguridad adaptados resultan trivialmente eludibles, incluso de forma involuntaria. Esta vulnerabilidad subraya una necesidad crítica de mecanismos de seguridad más robustos e incorporados.
La investigación de EleutherAI defiende un enfoque fundamentalmente diferente, uno que se alinea con el espíritu de la comunidad de IA abierta. Su intuición central es sencilla: si se quieren prevenir capacidades peligrosas, el primer paso debe ser eliminar los datos preocupantes del preentrenamiento de los modelos. Un modelo que es completamente ignorante de cómo construir un dispositivo peligroso, por ejemplo, es poco probable que sea útil en tal tarea, independientemente de cómo se le solicite. Si bien algunos proveedores comerciales insinúan el filtrado de datos por seguridad, ninguno ha detallado sus metodologías o cuantificado su impacto causal en las capacidades del modelo. El artículo “Deep Ignorance” de EleutherAI ofrece el examen más completo de estas cuestiones hasta la fecha.
El estudio se centró en prevenir el conocimiento de “riesgo biológico”, utilizando el referente WMDP-Bio, una colección de aproximadamente 1.200 preguntas de opción múltiple relacionadas con los requisitos previos para los peligros biológicos. Para lograr esto, EleutherAI desarrolló una tubería de filtrado escalable y multi-etapa capaz de examinar más de 400 millones de documentos con una sobrecarga computacional mínima, menos del 1% de aumento en el procesamiento total. Esta tubería empleó primero una lista de bloqueo de aproximadamente 6.000 términos altamente específicos para discusiones sobre riesgo biológico. Los documentos que contenían dos o más de estos términos se escalaban luego a un clasificador de aprendizaje automático, ModernBERT-Large, para una revisión adicional. El equipo entrenó múltiples modelos de 6.900 millones de parámetros desde cero con 550.000 millones de tokens, comparando un modelo de referencia entrenado con datos sin filtrar con modelos entrenados con conjuntos de datos filtrados. Esta configuración rigurosa permitió realizar afirmaciones causales precisas con respecto al impacto del filtrado de datos.
Los resultados fueron convincentes. EleutherAI descubrió que sus configuraciones de filtrado más efectivas podían reducir el rendimiento de un modelo en el referente WMDP-Bio a niveles cercanos al azar, crucialmente sin degradar significativamente su rendimiento en referentes de conocimiento general como MMLU, PIQA, Lambada y Hellaswag. Esto sugiere que el filtrado de datos puede ser una intervención altamente dirigida, previniendo conocimientos indeseables específicos sin grandes compensaciones de rendimiento. Sorprendentemente, incluso la eliminación de un sustancial 10% de los datos de entrenamiento a través de la lista de bloqueo tuvo un impacto negativo mínimo en la mayoría de los referentes, lo que indica que los modelos pueden soportar una eliminación significativa de datos benignos mientras conservan sus capacidades centrales.
Además, el estudio reveló que el filtrado de datos confiere un grado significativo de resistencia a la manipulación. Incluso cuando los modelos filtrados fueron intencionalmente ajustados en 300 millones de tokens de documentos de riesgo biológico etiquetados por expertos —el mismo material fuente para el examen WMDP— su rendimiento en el referente de riesgo biológico se mantuvo notablemente más bajo que el del modelo de referencia sin filtrar. Esto contrasta fuertemente con otros métodos de seguridad, como el “circuit breaking”, que demostraron ser frágiles y fácilmente eludidos incluso con una manipulación menor. Los modelos filtrados también resistieron el “ajuste fino benigno” (por ejemplo, en texto general como Wikitext), que a menudo puede volver a habilitar comportamientos inseguros en modelos protegidos convencionalmente. Esto resalta la fragilidad inherente de las salvaguardas actuales de peso cerrado cuando se aplican a contextos de código abierto.
Sin embargo, la investigación también identificó una limitación crucial: el filtrado de datos de preentrenamiento no impide que los modelos adquieran o utilicen información indeseable si esa información se proporciona directamente en la solicitud, un escenario similar a la Generación Aumentada por Recuperación (RAG). En experimentos de “libro abierto” donde se suministraron resúmenes de riesgo biológico en la solicitud, los modelos filtrados, a pesar de tener un conocimiento interno limitado sobre riesgo biológico, tuvieron un rendimiento significativamente mejor que en escenarios de “libro cerrado” donde dependían únicamente de sus parámetros aprendidos. Si bien su rendimiento no igualó al de la línea base, se acercó, lo que sugiere que los modelos aún pueden razonar sobre temas sensibles si la información necesaria se les presenta explícitamente.
Este hallazgo subraya la necesidad de una estrategia de “defensa en profundidad”, donde el filtrado de datos de preentrenamiento se combine con otras intervenciones para construir una gestión integral de riesgos. Paradójicamente, esta “limitación” en el contexto de código abierto podría ser una característica valiosa para los modelos de peso cerrado. Los proveedores podrían permitir selectivamente a usuarios de confianza el acceso a bases de datos de conocimiento de doble uso, habilitando aplicaciones prosociales mientras restringen el acceso a usuarios no confiables.
El trabajo de EleutherAI llena un vacío crítico en la investigación de seguridad de la IA de código abierto. Históricamente, los inmensos costos y esfuerzos asociados con el preentrenamiento de LLM han disuadido a los investigadores académicos y sin fines de lucro, mientras que las empresas privadas se han desincentivado a compartir detalles de preentrenamiento debido a preocupaciones competitivas y riesgos legales. Al estudiar y compartir abiertamente su pila de preentrenamiento, EleutherAI tiene como objetivo alentar a más investigadores a explorar estas preguntas fundamentales, creyendo que otras intervenciones conceptualmente simples pero impactantes esperan ser descubiertas en el ámbito del preentrenamiento de LLM.