TPC25: Líderes debaten confianza, escala y evaluación de LLM en ciencia
En la reciente conferencia TPC25, dos figuras prominentes ofrecieron visiones distintas pero complementarias para el futuro de los grandes modelos de lenguaje (LLM) en la investigación científica. Sus discusiones subrayaron un desafío dual crítico: cultivar la confianza en estos potentes sistemas de IA mientras se escalan simultáneamente sus capacidades y su despliegue.
Franck Cappello, del Laboratorio Nacional de Argonne, presentó EAIRA, un marco novedoso diseñado para evaluar rigurosamente a los asistentes de investigación de IA. Su enfoque central fue establecer métricas para el razonamiento, la adaptabilidad y la experiencia específica del dominio, esenciales para que los investigadores puedan delegar con confianza tareas científicas complejas a los LLM sin supervisión humana constante. Cappello destacó la creciente ambición de los “colegas” de IA, que van más allá de la mera selección de literatura para abarcar la generación de hipótesis, la escritura de código e incluso el diseño y la ejecución experimental. El desafío, señaló, radica en evaluar un sistema de “caja negra” cuyas operaciones internas son opacas, a diferencia de los instrumentos científicos tradicionales. Los métodos de evaluación actuales, como las preguntas de opción múltiple y las respuestas abiertas, a menudo se quedan cortos, siendo demasiado genéricos, estáticos o propensos a la contaminación de datos del entrenamiento del modelo. EAIRA propone una metodología integral y evolutiva que combina la evaluación de la recuperación de hechos (preguntas de opción múltiple) con evaluaciones de razonamiento avanzado (respuestas abiertas), experimentos controlados tipo laboratorio y experimentos de campo a gran escala y en el mundo real para capturar interacciones complejas entre investigador y LLM en diversos dominios científicos.
Desde Japón, el profesor Rio Yokota del Instituto de Tecnología de Tokio detalló la ambiciosa estrategia de doble vía de su país para el desarrollo de LLM. El consorcio LLM-jp lidera los esfuerzos para entrenar modelos masivos utilizando las supercomputadoras más potentes de Japón, incluyendo ABCI y Fugaku. Esta iniciativa a gran escala enfatiza la construcción de extensos conjuntos de datos multilingües, la exploración de arquitecturas de hasta 172 mil millones de parámetros y la dedicación de millones de horas de GPU de alto rendimiento para mantenerse competitivos a nivel mundial. Yokota enfatizó que tal escala exige una coordinación meticulosa y una experimentación disciplinada, señalando que una única configuración de parámetro incorrecta puede traducirse en millones de dólares en costos de entrenamiento desperdiciados. Un aspecto crucial de LLM-jp es su compromiso con el rápido intercambio de conocimientos, asegurando que el progreso se difunda rápidamente entre las universidades participantes, los centros de investigación gubernamentales y los socios corporativos.
Complementando esta gran escala está el proyecto Swallow, más pequeño y ágil. Esta iniciativa se centra en la experimentación dirigida, desarrollando métodos de entrenamiento eficientes y arquitecturas de modelo más ligeras. Swallow explora técnicas innovadoras como los diseños de “Mixture of Experts” (MoE), donde solo un subconjunto de submodelos especializados se activa para una entrada dada, reduciendo drásticamente los costos computacionales mientras se mantiene la precisión. Este proyecto sirve como campo de pruebas para ideas más arriesgadas que podrían ser demasiado costosas de probar en modelos masivos, y las lecciones aprendidas de Swallow se incorporan a los modelos LLM-jp más grandes casi de inmediato.
La convergencia de las presentaciones de Cappello y Yokota fue clara: para que los LLM alcancen su máximo potencial en la ciencia, la confianza y la escala deben avanzar al unísono. Los modelos más potentes tendrán un impacto limitado si sus resultados no pueden verificarse, e incluso los métodos de evaluación más rigurosos pierden valor si no se aplican a sistemas capaces de abordar problemas complejos del mundo real. El futuro de la IA científica depende del desarrollo de modelos que sean ambiciosos en capacidad y rigurosamente, transparentemente probados.