MIT lanza nueva herramienta de código abierto para evaluar IA de texto
A medida que los modelos de lenguaje grandes (LLM) impregnan cada vez más nuestra vida diaria, la necesidad de probar rigurosamente y asegurar su fiabilidad nunca ha sido mayor. Ya sea para discernir si una reseña de película es un elogio brillante o una crítica mordaz, clasificar una noticia como de negocios o tecnología, o monitorear un chatbot en línea para evitar que dispense consejos financieros no autorizados o desinformación médica, estas evaluaciones automatizadas son ahora predominantemente manejadas por algoritmos sofisticados conocidos como clasificadores de texto. La pregunta crítica, sin embargo, sigue siendo: ¿cómo podemos determinar verdaderamente la precisión de estas clasificaciones?
Un equipo del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT ha presentado recientemente un enfoque innovador diseñado no solo para medir la eficacia de estos clasificadores, sino también para proporcionar una vía clara para mejorar su precisión. El nuevo software de evaluación y remediación, desarrollado por el científico de investigación principal Kalyan Veeramachaneni, junto con sus estudiantes Lei Xu y Sarah Alnegheimish y otros dos colaboradores, se ofrece de forma gratuita para su descarga, lo que representa una contribución significativa a la comunidad de IA en general.
Tradicionalmente, la prueba de sistemas de clasificación implica la creación de “ejemplos sintéticos”, frases elaboradas para parecerse a las ya clasificadas. Por ejemplo, los investigadores podrían tomar una frase previamente etiquetada como una reseña positiva y alterar sutilmente una o dos palabras, con el objetivo de engañar al clasificador para que la malinterprete como negativa, incluso si el significado central permanece inalterado. De manera similar, una frase considerada desinformación podría ser ligeramente modificada para ser clasificada erróneamente como precisa. Estos ejemplos engañosos, conocidos como ejemplos adversarios, exponen vulnerabilidades en los clasificadores. Si bien se han intentado varios métodos para descubrir estas debilidades, las técnicas existentes a menudo tienen dificultades, pasando por alto muchas instancias críticas.
La demanda de tales herramientas de evaluación está creciendo, particularmente a medida que las empresas implementan cada vez más chatbots para diversos propósitos, esforzándose por garantizar que sus respuestas sean apropiadas y seguras. Un banco, por ejemplo, podría usar un chatbot para consultas rutinarias de clientes, como verificar saldos de cuentas, pero debe asegurarse rigurosamente de que nunca proporcione inadvertidamente asesoramiento financiero, lo que podría exponer a la institución a responsabilidades. Como explica Veeramachaneni, “Antes de mostrar la respuesta del chatbot al usuario final, quieren usar el clasificador de texto para detectar si está dando asesoramiento financiero o no”. Esto hace que sea necesario un robusto testeo del propio clasificador.
El método del equipo del MIT aprovecha la misma tecnología que pretende mejorar: los modelos de lenguaje grandes (LLM). Cuando se crea un ejemplo adversario, una frase ligeramente modificada que conserva el significado original pero engaña al clasificador, se emplea otro LLM para confirmar esa equivalencia semántica. Si el LLM verifica que dos frases transmiten el mismo significado, pero el clasificador les asigna etiquetas diferentes, entonces, como señala Veeramachaneni, “esa es una frase que es adversaria; puede engañar al clasificador”. Curiosamente, los investigadores descubrieron que la mayoría de estos ataques adversarios exitosos implicaban solo un cambio de una sola palabra, una sutileza que a menudo pasa desapercibida para quienes usan LLM para generar las oraciones alternativas.
A través de un extenso análisis de miles de ejemplos, utilizando nuevamente LLM, el equipo descubrió que ciertas palabras específicas ejercían una influencia desproporcionada en la alteración de las clasificaciones. Esta información crucial permite un enfoque mucho más dirigido para probar la precisión de un clasificador, centrándose en un pequeño subconjunto de palabras que consistentemente marcan la diferencia más significativa. Lei Xu, una reciente graduada de LIDS cuya tesis doctoral contribuyó significativamente a este análisis, “utilizó muchas técnicas de estimación interesantes para averiguar cuáles son las palabras más poderosas que pueden cambiar la clasificación general, que pueden engañar al clasificador”, explicó Veeramachaneni. Este enfoque agiliza drásticamente la carga computacional de generar ejemplos adversarios.
Sobre esta base, el sistema emplea además LLM para identificar palabras estrechamente relacionadas con estos términos “poderosos”, creando una clasificación exhaustiva basada en su influencia en los resultados de la clasificación. Una vez identificadas, estas oraciones adversarias pueden usarse para reentrenar el clasificador, mejorando significativamente su robustez contra tales errores.
Las implicaciones de hacer que los clasificadores sean más precisos van mucho más allá de la simple categorización de artículos de noticias o reseñas de películas. Cada vez más, estos sistemas se implementan en entornos de alto riesgo donde una clasificación errónea puede tener graves consecuencias. Esto incluye prevenir la divulgación inadvertida de información médica, financiera o de seguridad sensible, guiar la investigación crítica en campos como la biomedicina, o identificar y bloquear el discurso de odio y la desinformación.
Como resultado directo de esta investigación, el equipo ha introducido una nueva métrica, denominada “p”, que cuantifica la resistencia de un clasificador contra ataques de una sola palabra. Reconociendo la importancia crítica de mitigar tales clasificaciones erróneas, el equipo de investigación ha hecho que sus herramientas sean de acceso abierto. El paquete comprende dos componentes clave: SP-Attack, que genera oraciones adversarias para probar clasificadores en diversas aplicaciones, y SP-Defense, diseñado para mejorar la robustez del clasificador utilizando estos ejemplos adversarios para el reentrenamiento del modelo.
En algunas pruebas, donde los métodos competitivos permitieron que los ataques adversarios alcanzaran una tasa de éxito del 66 por ciento, el sistema del equipo del MIT casi redujo esto a la mitad, recortando la tasa de éxito del ataque al 33.7 por ciento. Si bien otras aplicaciones mostraron una mejora más modesta del 2 por ciento, incluso ganancias aparentemente tan pequeñas son inmensamente significativas al considerar los miles de millones de interacciones que estos sistemas manejan diariamente, donde incluso un pequeño porcentaje puede afectar millones de transacciones. Los hallazgos del equipo se publicaron el 7 de julio en la revista Expert Systems, en un artículo escrito por Xu, Veeramachaneni y Alnegheimish de LIDS, junto con Laure Berti-Equille del IRD en Marsella, Francia, y Alfredo Cuesta-Infante de la Universidad Rey Juan Carlos, en España.