Yann LeCun de Meta: Les LLM sont simplistes, l'avenir de l'IA est réel
Dans le domaine en évolution rapide de l’Intelligence Artificielle, une grande partie de l’attention publique reste fixée sur les Modèles de Langage Étendus (LLM). Cependant, Yann LeCun, scientifique en chef de l’IA chez Meta, plaide pour un changement d’orientation, affirmant que l’avenir de l’IA avancée se situe au-delà des capacités actuelles des LLM.
LeCun, un pionnier de l’apprentissage profond, a ouvertement exprimé son intérêt décroissant pour les LLM, les considérant comme une “manière simpliste de concevoir le raisonnement”. Tout en reconnaissant leurs améliorations progressives grâce à l’augmentation des données et de la puissance de calcul, il estime que les avancées véritablement transformatrices en IA émergeront de quatre domaines critiques :
Comprendre le monde physique : Développer des machines capables de saisir intuitivement les nuances de la physique et des interactions du monde réel.
Mémoire persistante : Créer des systèmes d’IA dotés d’une capacité de mémoire à long terme et accessible.
Raisonnement : Aller au-delà des formes rudimentaires actuelles de raisonnement vers des méthodes plus sophistiquées et intuitives.
Planification : Permettre à l’IA de planifier des séquences d’actions pour atteindre des objectifs spécifiques, reflétant les processus cognitifs humains.
LeCun suggère que la communauté technologique, actuellement captivée par les LLM, tournera probablement son attention vers ces “articles universitaires obscurs” au cours des cinq prochaines années.
Les limites des systèmes basés sur des jetons
Une limitation fondamentale des LLM actuels, selon LeCun, découle de leur approche basée sur des jetons (tokens). Les jetons, qui représentent généralement un ensemble fini de possibilités discrètes (comme des mots ou des unités sous-lexicales), sont bien adaptés au langage. Cependant, le monde physique est “hautement dimensionnel et continu”.
Les humains acquièrent des “modèles du monde” tôt dans la vie, ce qui leur permet une compréhension intuitive de la cause à effet – par exemple, comment pousser un objet depuis différents points donne des résultats différents. Reproduire cette compréhension intuitive de la physique avec des systèmes conçus pour prédire des jetons discrets est profondément difficile. Les tentatives de former l’IA en prédisant des données continues et de haute dimension comme la vidéo au niveau des pixels se sont avérées largement inefficaces, consommant de vastes ressources pour inventer des détails imprévisibles. De nombreux aspects de la réalité sont intrinsèquement imprévisibles à un niveau granulaire, ce qui fait de la reconstruction au niveau des pixels une entreprise futile.
Introduction des Architectures Prédictives à Intégration Conjointe (JAPA)
LeCun postule que la solution réside dans les Architectures Prédictives à Intégration Conjointe (JAPA). Contrairement aux modèles génératifs qui tentent une reconstruction détaillée au niveau des pixels, JAPA se concentre sur l’apprentissage de “représentations abstraites” des données.
Dans JAPA, une entrée (par exemple, un segment vidéo ou une image) est traitée par un encodeur pour créer une représentation abstraite. Une version transformée de l’entrée est également encodée. Le système effectue ensuite des prédictions dans cet “espace de représentation” (ou espace latent), plutôt que dans l’espace d’entrée brut. Cela s’apparente à “remplir le vide” d’une manière plus abstraite et sémantique. Cette approche aide à surmonter le “problème d’effondrement” où les systèmes pourraient ignorer l’entrée et produire des représentations non informatives.
Pour les systèmes agentiques capables de raisonnement et de planification, JAPA offre un mécanisme puissant. Un prédicteur basé sur JAPA pourrait observer l’état actuel du monde et anticiper le “prochain état étant donné une action hypothétique”. Cela permet de planifier des séquences d’actions pour atteindre les résultats souhaités, reflétant les processus cognitifs humains. LeCun oppose cela aux “systèmes de raisonnement agentiques” actuels qui génèrent de nombreuses séquences de jetons puis sélectionnent la meilleure – une méthode qu’il juge “complètement désespérée” pour tout ce qui dépasse les courtes séquences en raison de son échelle exponentielle. Le vrai raisonnement, affirme-t-il, se produit dans un état mental abstrait, pas en “agitant des jetons”.
Un exemple pratique est le projet Video Joint Embedding Predictive Architecture (VJA) de Meta. Entraîné sur de courts segments vidéo, VJA peut prédire des représentations de vidéos complètes à partir de versions masquées, démontrant une capacité à détecter si une vidéo est “physiquement possible ou non”. En mesurant l’erreur de prédiction, il peut signaler des événements “inhabituels”, un peu comme un bébé est surpris par des objets défiant la gravité.
La voie vers l’Intelligence Artificielle Avancée (AMI)
LeCun préfère le terme Intelligence Artificielle Avancée (AMI) à Intelligence Artificielle Générale (AGI), reconnaissant la nature spécialisée de l’intelligence humaine. Il estime qu’une “bonne maîtrise” de l’AMI à petite échelle pourrait être atteinte d’ici trois à cinq ans, l’IA de niveau humain pouvant potentiellement arriver d’ici une décennie. Cependant, il met en garde contre un optimisme historique excessif, rejetant l’idée que le simple fait de faire évoluer les LLM ou de générer des milliers de séquences de jetons mènera à une intelligence de niveau humain comme étant “absurde”.
Un goulot d’étranglement important est la donnée. Les LLM sont entraînés sur de vastes quantités de texte, équivalant à des centaines de milliers d’années de lecture. En revanche, un enfant de quatre ans traite une quantité équivalente de données par la vision en seulement 16 000 heures, soulignant l’immense efficacité de l’apprentissage visuel. Cette disparité souligne que l’AGI ne peut être atteinte uniquement par l’entraînement à partir de texte. La clé pour débloquer l’AMI, selon LeCun, est de découvrir la “bonne recette” pour entraîner des architectures JAPA à grande échelle, similaire aux percées fondamentales qui ont permis les réseaux neuronaux profonds et les transformeurs.
Impact actuel de l’IA et défis futurs
Malgré l’accent mis sur les paradigmes futurs, LeCun souligne l’impact positif déjà immense de l’IA. En science et médecine, l’IA transforme la conception de médicaments, le repliement des protéines et l’imagerie médicale, réduisant les temps de scan IRM et le dépistage précoce des tumeurs. Dans l’automobile, les systèmes d’aide à la conduite et de freinage d’urgence alimentés par l’IA réduisent considérablement les collisions. L’IA sert principalement d’“outil puissant”, augmentant la productivité et la créativité humaines dans divers domaines.
Cependant, le déploiement généralisé fait face à des défis en matière de “précision et de fiabilité”, en particulier dans les applications où les erreurs peuvent être critiques, comme la conduite autonome. LeCun note que l’IA échoue souvent non pas dans les techniques de base, mais dans une intégration fiable. Pourtant, pour de nombreuses applications où les erreurs ne sont pas désastreuses (par exemple, le divertissement, l’éducation), une IA qui est “correcte la plupart du temps” est déjà très bénéfique.
Concernant le “côté obscur” de l’IA comme les deepfakes, LeCun exprime son optimisme. L’expérience de Meta suggère qu’il n’y a pas eu d’augmentation significative du contenu génératif néfaste, malgré la disponibilité des LLM. Il pense que la “contre-mesure contre l’utilisation abusive est simplement une meilleure IA” – des systèmes dotés de bon sens, de capacité de raisonnement et de la capacité d’évaluer leur propre fiabilité.
Le rôle indispensable de l’Open Source et de la collaboration mondiale
Un principe fondamental de la philosophie de LeCun est la nécessité absolue des plateformes d’IA open source. Il souligne que “les bonnes idées proviennent de l’interaction de nombreuses personnes et de l’échange d’idées”, car aucune entité unique ne détient le monopole de l’innovation. L’engagement de Meta envers l’open source, exemplifié par PyTorch et LLaMA, favorise un écosystème florissant de startups et permet la collaboration mondiale.
L’IA open source est cruciale pour l’avenir car elle permet :
Diversité des assistants IA : Une poignée d’entreprises ne peut pas fournir la diversité d’assistants IA nécessaire pour un futur où l’IA médiera presque toutes les interactions numériques. Des assistants divers sont nécessaires pour comprendre des langues, cultures et systèmes de valeurs variés.
Formation distribuée : Aucune entité unique ne collectera toutes les données du monde. Les futurs modèles seront des modèles fondamentaux open source entraînés de manière distribuée, avec des centres de données mondiaux accédant à des sous-ensembles de données pour entraîner un “modèle de consensus”.
Fine-tuning sur données propriétaires : Les modèles open source comme LLaMA permettent aux entreprises de les télécharger et de les fine-tuner sur leurs propres données propriétaires sans les télécharger, soutenant ainsi des applications verticales spécialisées et des modèles commerciaux de startups.
Matériel : Alimenter la prochaine révolution de l’IA
Le chemin vers l’AMI et les modèles de monde sophistiqués exigera une puissance de calcul toujours croissante. Bien que les GPU aient connu des avancées exponentielles, le coût computationnel du raisonnement dans l’espace abstrait signifie qu’une innovation matérielle continue est essentielle.
LeCun reste largement sceptique quant au matériel neuromorphique, à l’informatique optique et à l’informatique quantique pour les tâches générales d’IA dans un avenir proche, citant l’enracinement profond de l’industrie des semi-conducteurs numériques. Cependant, il voit des promesses dans les technologies de Processeur-en-Mémoire (PIM) ou de processeurs analogiques/numériques et de mémoire pour des scénarios spécifiques de “calcul en périphérie” (edge computation), tels que le traitement visuel à faible consommation dans les lunettes intelligentes. Cette approche imite les systèmes biologiques comme la rétine, qui traite d’immenses données visuelles au niveau du capteur pour les compresser avant la transmission, soulignant que le mouvement des données, et pas seulement le calcul, consomme souvent le plus d’énergie.
En fin de compte, LeCun envisage un avenir où les systèmes d’IA serviront d’“outils puissants” qui augmentent les capacités humaines, et non les remplacent. Notre relation avec la future IA sera une relation de commande, les humains dirigeant un “personnel de personnes virtuelles super-intelligentes”. Cet avenir collaboratif, alimenté par la recherche ouverte et les plateformes open source, tirera parti des contributions mondiales pour créer un éventail diversifié d’assistants IA qui amélioreront la vie quotidienne.