Yann LeCun de Meta: Los LLMs son simplistas, el futuro de la IA está en el mundo real
En el campo de la Inteligencia Artificial, en rápida evolución, gran parte de la atención pública sigue fijada en los Modelos de Lenguaje Grandes (LLMs). Sin embargo, Yann LeCun, Científico Jefe de IA en Meta, aboga por un cambio de enfoque, afirmando que el futuro de la IA avanzada va más allá de las capacidades actuales de los LLMs.
LeCun, pionero en el aprendizaje profundo, ha expresado abiertamente su decreciente interés en los LLMs, considerándolos una “forma simplista de ver el razonamiento”. Si bien reconoce sus mejoras incrementales a través de un mayor volumen de datos y potencia computacional, cree que los avances verdaderamente transformadores en IA surgirán de cuatro áreas críticas:
Comprensión del Mundo Físico: Desarrollar máquinas que puedan captar intuitivamente los matices de la física y las interacciones del mundo real.
Memoria Persistente: Crear sistemas de IA con capacidad para una memoria a largo plazo y accesible.
Razonamiento: Ir más allá de las formas rudimentarias actuales de razonamiento hacia métodos más sofisticados e intuitivos.
Planificación: Habilitar a la IA para planificar secuencias de acciones para lograr objetivos específicos, reflejando los procesos cognitivos humanos.
LeCun sugiere que la comunidad tecnológica, actualmente cautivada por los LLMs, probablemente dirigirá su atención a estos “documentos académicos oscuros” en los próximos cinco años.
Las Limitaciones de los Sistemas Basados en Tokens
Una limitación fundamental de los LLMs actuales, según LeCun, proviene de su enfoque basado en tokens. Los tokens, que típicamente representan un conjunto finito de posibilidades discretas (como palabras o unidades de subpalabra), son adecuados para el lenguaje. Sin embargo, el mundo físico es “de alta dimensión y continuo”.
Los humanos adquieren “modelos del mundo” en la primera infancia, lo que permite una comprensión intuitiva de causa y efecto, por ejemplo, cómo empujar un objeto desde diferentes puntos produce resultados distintos. Replicar esta comprensión intuitiva de la física con sistemas diseñados para predecir tokens discretos es profundamente difícil. Los intentos de entrenar IA prediciendo datos continuos y de alta dimensión como el video a nivel de píxel han demostrado ser en gran medida ineficientes, consumiendo vastos recursos para inventar detalles impredecibles. Muchos aspectos de la realidad son inherentemente impredecibles a un nivel granular, lo que hace que la reconstrucción a nivel de píxel sea un esfuerzo inútil.
Introduciendo las Arquitecturas Predictivas de Incrustación Conjunta (JAPA)
LeCun postula que la solución reside en las Arquitecturas Predictivas de Incrustación Conjunta (JAPA). A diferencia de los modelos generativos que intentan una reconstrucción detallada a nivel de píxel, JAPA se centra en aprender “representaciones abstractas” de los datos.
En JAPA, una entrada (por ejemplo, un segmento de video o una imagen) es procesada por un codificador para crear una representación abstracta. Una versión transformada de la entrada también se codifica. El sistema luego realiza predicciones dentro de este “espacio de representación” (o espacio latente), en lugar de en el espacio de entrada crudo. Esto es similar a “rellenar el espacio en blanco” de una manera más abstracta y semántica. Este enfoque ayuda a superar el “problema del colapso” donde los sistemas podrían ignorar la entrada y producir representaciones poco informativas.
Para los sistemas agénticos capaces de razonamiento y planificación, JAPA ofrece un mecanismo potente. Un predictor basado en JAPA podría observar el estado actual del mundo y anticipar el “siguiente estado dada una acción hipotética”. Esto permite planificar secuencias de acciones para lograr los resultados deseados, reflejando los procesos cognitivos humanos. LeCun contrasta esto con los actuales “sistemas de razonamiento agéntico” que generan numerosas secuencias de tokens y luego seleccionan la mejor, un método que considera “completamente inútil” para cualquier cosa más allá de secuencias cortas debido a su escalado exponencial. El verdadero razonamiento, argumenta, ocurre en un estado mental abstracto, no “pateando tokens por ahí”.
Un ejemplo práctico es el proyecto Video Joint Embedding Predictive Architecture (VJA) de Meta. Entrenado con segmentos de video cortos, VJA puede predecir representaciones de videos completos a partir de versiones enmascaradas, demostrando la capacidad de detectar si un video es “físicamente posible o no”. Al medir el error de predicción, puede señalar eventos “inusuales”, de manera similar a cómo un bebé se sorprende con objetos que desafían la gravedad.
El Camino hacia la Inteligencia Artificial Avanzada (AMI)
LeCun prefiere el término Inteligencia Artificial Avanzada (AMI) sobre Inteligencia Artificial General (AGI), reconociendo la naturaleza especializada de la inteligencia humana. Estima que un “buen manejo” de la AMI a pequeña escala podría lograrse en tres a cinco años, con una IA a nivel humano potencialmente llegando dentro de una década. Sin embargo, advierte contra el optimismo histórico excesivo, desestimando la noción de que simplemente escalar LLMs o generar miles de secuencias de tokens conducirá a la inteligencia a nivel humano como “tonterías”.
Un cuello de botella significativo son los datos. Los LLMs se entrenan con vastas cantidades de texto, equivalentes a cientos de miles de años de lectura. En contraste, un niño de cuatro años procesa una cantidad equivalente de datos a través de la visión en solo 16,000 horas, destacando la inmensa eficiencia del aprendizaje visual. Esta disparidad subraya que la AGI no se puede lograr únicamente entrenando a partir de texto. La clave para desbloquear la AMI, según LeCun, es descubrir la “buena receta” para entrenar arquitecturas JAPA a escala, similar a los avances fundamentales que hicieron posibles las redes neuronales profundas y los transformadores.
Impacto Actual de la IA y Desafíos Futuros
A pesar del enfoque en paradigmas futuros, LeCun enfatiza el ya inmenso impacto positivo de la IA. En ciencia y medicina, la IA está transformando el diseño de fármacos, el plegamiento de proteínas y la imagen médica, reduciendo los tiempos de las resonancias magnéticas y el pre-cribado de tumores. En el sector automotriz, los sistemas de asistencia a la conducción y frenado de emergencia impulsados por IA están reduciendo significativamente las colisiones. La IA sirve principalmente como una “herramienta potente”, aumentando la productividad y creatividad humanas en varios dominios.
Sin embargo, la implementación generalizada enfrenta desafíos en “precisión y fiabilidad”, particularmente en aplicaciones donde los errores pueden ser críticos, como la conducción autónoma. LeCun señala que la IA a menudo falla no en técnicas básicas, sino en una integración fiable. Sin embargo, para muchas aplicaciones donde los errores no son desastrosos (por ejemplo, entretenimiento, educación), una IA que es “correcta la mayor parte del tiempo” ya es muy beneficiosa.
Respecto al “lado oscuro” de la IA como los deepfakes, LeCun expresa optimismo. La experiencia de Meta sugiere que no ha habido un aumento significativo en el contenido generativo nefasto, a pesar de la disponibilidad de los LLMs. Él cree que la “contramedida contra el mal uso es simplemente una mejor IA”: sistemas con sentido común, capacidad de razonamiento y la habilidad de evaluar su propia fiabilidad.
El Papel Indispensable del Código Abierto y la Colaboración Global
Un principio fundamental de la filosofía de LeCun es la absoluta necesidad de plataformas de IA de código abierto. Él enfatiza que “las buenas ideas provienen de la interacción de muchas personas y el intercambio de ideas”, ya que ninguna entidad única tiene el monopolio de la innovación. El compromiso de Meta con el código abierto, ejemplificado por PyTorch y LLaMA, fomenta un ecosistema próspero de startups y permite la colaboración global.
La IA de código abierto es crucial para el futuro porque permite:
Diversidad de Asistentes de IA: Un puñado de empresas no puede proporcionar la diversidad de asistentes de IA necesaria para un futuro en el que la IA medie casi todas las interacciones digitales. Se requieren asistentes diversos para comprender idiomas, culturas y sistemas de valores variados.
Entrenamiento Distribuido: Ninguna entidad única recopilará todos los datos del mundo. Los modelos futuros serán modelos fundacionales de código abierto entrenados de manera distribuida, con centros de datos globales accediendo a subconjuntos de datos para entrenar un “modelo de consenso”.
Ajuste Fino en Datos Propietarios: Los modelos de código abierto como LLaMA permiten a las empresas descargarlos y ajustarlos en sus propios datos propietarios sin subirlos, lo que respalda aplicaciones verticales especializadas y modelos de negocio de startups.
Hardware: Impulsando la Próxima Revolución de la IA
El camino hacia la AMI y los modelos mundiales sofisticados exigirá una potencia computacional cada vez mayor. Si bien las GPUs han experimentado avances exponenciales, el gasto computacional del razonamiento en el espacio abstracto significa que la innovación continua en hardware es esencial.
LeCun se muestra en gran medida escéptico respecto al hardware neuromórfico, la computación óptica y la computación cuántica para tareas generales de IA en un futuro cercano, citando el profundo arraigo de la industria de semiconductores digitales. Sin embargo, ve potencial en las tecnologías de Procesador en Memoria (PIM) o procesadores analógicos/digitales y memoria para escenarios específicos de “computación de borde”, como el procesamiento visual de bajo consumo en gafas inteligentes. Este enfoque imita sistemas biológicos como la retina, que procesa inmensos datos visuales en el sensor para comprimirlos antes de la transmisión, destacando que el movimiento de datos, no solo la computación, a menudo consume la mayor parte de la energía.
En última instancia, LeCun vislumbra un futuro en el que los sistemas de IA sirvan como “herramientas potentes” que aumentan las capacidades humanas, no las reemplazan. Nuestra relación con la IA futura será de mando, con los humanos dirigiendo un “equipo de personas virtuales superinteligentes”. Este futuro colaborativo, impulsado por la investigación abierta y las plataformas de código abierto, aprovechará las contribuciones globales para crear una diversa gama de asistentes de IA que mejorarán la vida diaria.