TPC25: IA lista para la ciencia – Exaescala, Cuántica y Futuro

Aiwire

La conferencia TPC25 reunió recientemente a investigadores líderes con un objetivo unificado: transformar la inteligencia artificial a escala de frontera en una herramienta práctica para el descubrimiento científico. Las discusiones a lo largo de la semana destacaron tanto la inmensa promesa como los significativos obstáculos que se avecinan en esta ambiciosa empresa.

Más allá de la velocidad bruta: Creando IA preparada para la ciencia

Satoshi Matsuoka, Director del Centro de Ciencias Computacionales de RIKEN, enfatizó que los modelos fundacionales comerciales actuales son solo un punto de partida para las aplicaciones científicas. Hablando en nombre del Equipo de IA para la Ciencia de RIKEN, Matsuoka detalló las brechas críticas en el manejo de datos, el diseño de modelos y la orquestación de flujos de trabajo que deben abordarse antes de que los grandes modelos de lenguaje y aprendizaje puedan servir de manera confiable a la investigación científica.

RIKEN está construyendo activamente la infraestructura para apoyar esta visión. Si bien su supercomputadora Fugaku sigue siendo un líder global con 60.000 nodos de CPU, el centro está expandiendo sus capacidades con un nuevo complejo de GPU que presenta aproximadamente 1.500 aceleradores Nvidia Blackwell y cientos de GPU y TPU adicionales. RIKEN también opera tres sistemas cuánticos y está planeando un futuro sistema que se espera que logre la computación a escala de zettaescala (10^21 operaciones por segundo) para 2029.

Matsuoka enfatizó que la velocidad computacional bruta por sí sola es insuficiente. Los modelos de IA científica deben comprender inherentemente datos y flujos de trabajo científicos complejos. A diferencia de los modelos comerciales de propósito general, las aplicaciones científicas en física, química y biología requieren características especializadas. Los datos científicos a menudo combinan texto, ecuaciones, imágenes y flujos de sensores, frecuentemente a escalas de terabytes. Los sistemas de IA actuales tienen dificultades con símbolos específicos de dominio, unidades, secuencias muy largas e imágenes científicas de ultra alta resolución. Para superar esto, Matsuoka abogó por vocabularios de tokens personalizados, mecanismos de atención dispersa y decodificadores conscientes de la física capaces de manejar ventanas de contexto mucho más allá de los límites típicos.

RIKEN está explorando métodos prácticos para mejorar la eficiencia del modelo y la comprensión de los datos, incluyendo técnicas avanzadas de compresión de datos como el teselado de cuádruples árboles y las curvas de llenado de espacio para imágenes de alta resolución. Estos métodos ofrecen ahorros computacionales sustanciales sin sacrificar la precisión, pero requieren nuevo soporte de compilador y memoria. Para datos multimodales, el equipo está desarrollando operadores híbridos que combinan redes neuronales con solucionadores de ecuaciones diferenciales parciales tradicionales. Matsuoka también destacó un cambio de modelos monolíticos y enormes a un espectro más diverso de modelos ajustados a tareas, incluyendo arquitecturas de mezcla de expertos y modelos de dominio afinados, enfatizando el razonamiento durante la inferencia para reducir costos y mejorar la robustez.

Desbloqueando el descubrimiento con IA Cuántica Generativa

Steve Clark, Jefe de IA en Quantinuum, exploró el potencial transformador cuando la computación cuántica y la IA convergen. Describió la estrategia de Quantinuum para la “IA cuántica generativa”, centrándose en tres enfoques sinérgicos.

Primero, la IA se está utilizando para optimizar la propia computación cuántica. Las técnicas de aprendizaje automático, como el aprendizaje por refuerzo profundo, se aplican a desafíos como la compilación de circuitos cuánticos, la reducción del número de costosas puertas cuánticas y la mejora del control óptimo y la corrección de errores en hardware cuántico real.

Segundo, el equipo de Clark está investigando cómo los sistemas cuánticos pueden potenciar formas completamente nuevas de IA. Esto implica rediseñar redes neuronales para que operen de forma nativa en hardware cuántico, utilizando propiedades cuánticas como la superposición para procesar información de maneras fundamentalmente diferentes, creando modelos sin un análogo clásico directo.

Tercero, la estrategia implica entrenar modelos de IA con datos generados por computadoras cuánticas. Esto permite que la IA aprenda patrones que los sistemas clásicos no pueden producir. Un ejemplo es el Eigensolver Cuántico Generativo, donde un modelo transformador sugiere iterativamente circuitos cuánticos para encontrar el estado fundamental de una molécula, un método aplicable a la química, la ciencia de los materiales y la optimización.

El ascenso de la IA en HPC, pero los desafíos persisten

Earl C. Joseph, CEO de Hyperion Research, presentó los hallazgos de una encuesta que destaca la rápida integración de la IA en los entornos de computación de alto rendimiento (HPC). La adopción de la IA en HPC ha aumentado de aproximadamente un tercio de los sitios en 2020 a más del 90% para 2024, pasando de las etapas experimentales al uso generalizado para tareas como la mejora de la simulación y el análisis de datos a gran escala en el gobierno, la academia y la industria.

Este crecimiento es paralelo al aumento de la adopción de la nube, ya que las organizaciones recurren a los servicios en la nube para mitigar los altos costos y la rápida obsolescencia del hardware de vanguardia, particularmente las GPU. La nube ofrece acceso a hardware de última generación y mayor flexibilidad, reduciendo la necesidad de inversiones a largo plazo en las instalaciones.

A pesar de esta expansión, persisten barreras significativas. El desafío más citado es la calidad de los datos de entrenamiento, lo que ha estancado numerosos proyectos de IA. Joseph citó a Mayo Clinic como ejemplo de una organización que mitiga este riesgo utilizando exclusivamente sus propios datos verificados para entrenar modelos de lenguaje más pequeños y de alta calidad. Otros problemas persistentes incluyen la escasez de experiencia interna en IA, la escala insuficiente de los datos de entrenamiento y la complejidad inherente de integrar la IA en los entornos HPC existentes. Joseph predijo que esta complejidad impulsará el crecimiento de un nuevo mercado para software y servicios de consultoría de IA específicos del dominio. Los estudios de Hyperion indican que el 97% de las organizaciones encuestadas planean expandir su uso de IA a pesar del aumento de los costos, lo que subraya la necesidad de aumentos significativos en el presupuesto a medida que la infraestructura de IA se vuelve más cara.

Mitigación de riesgos de IA con soluciones en las instalaciones

Jens Domke, líder del equipo de Investigación de Rendimiento de Supercomputación en RIKEN, lanzó una dura advertencia sobre el aspecto a menudo pasado por alto de la mitigación de riesgos en la prisa por desplegar la IA para uso científico. Describió cinco factores de riesgo clave: error humano, vulnerabilidades del software de IA, debilidades de la cadena de suministro, riesgos inherentes del modelo y amenazas externas como problemas legales y robo.

Domke proporcionó ejemplos de incidentes del mundo real, incluidas fugas de datos confidenciales de empresas que utilizan servicios de IA basados en la nube y violaciones de seguridad que afectaron a los principales proveedores de IA. También destacó cómo el software de IA desarrollado rápidamente a menudo carece de seguridad robusta, citando casos en los que se pasaron por alto los protocolos de seguridad básicos. La complejidad de los flujos de trabajo modernos de IA, que pueden involucrar docenas de paquetes de software, amplía aún más la superficie de ataque.

En respuesta a estos riesgos omnipresentes, RIKEN está desarrollando su propia capacidad de gestión de IA en las instalaciones, concibiéndola como una alternativa segura y privatizada a las ofertas comerciales de IA en la nube. Esta solución interna tiene como objetivo replicar la funcionalidad de los servicios externos, eliminando al mismo tiempo los riesgos de fuga de datos, piratería y exfiltración de datos.

La infraestructura de RIKEN se construirá sobre componentes de código abierto y contará con enclaves de seguridad de múltiples niveles. Un nivel semiabierto ofrecerá una amplia usabilidad detrás de un firewall seguro, similar a los servicios comerciales pero dentro de un entorno controlado. Los niveles de mayor seguridad se reservarán para operaciones altamente confidenciales, como investigaciones médicas o internas sensibles. El principio fundamental es “no confiar en nada”, con todos los modelos y servicios en contenedores, aislados en redes privadas y accesibles a través de proxies inversos seguros. Este enfoque proporciona a RIKEN control total sobre sus datos y modelos, permitiendo una fácil integración de modelos de código abierto y modelos personalizados afinados sin restricciones externas.

El camino a seguir

Entre las diversas perspectivas compartidas en TPC25, surgió un mensaje consistente: la escala computacional bruta por sí sola no es suficiente para realizar todo el potencial de la IA científica. El camino a seguir exige modelos ajustados al dominio, flujos de trabajo híbridos clásico-cuánticos sin fisuras, estándares rigurosos de calidad de datos y controles de riesgo robustos y proactivos. El próximo año será crucial para traducir estas ideas en herramientas compartidas y estándares comunitarios. Si el impulso demostrado en TPC25 continúa, la comunidad científica se acercará a sistemas de IA que aceleren el descubrimiento sin comprometer la confianza.