La 'Chaîne de Pensée' des LLM: Correspondance de motifs fragile, pas de vrai raisonnement

Venturebeat

Une nouvelle étude menée par des chercheurs de l’Arizona State University porte un regard critique sur le très loué raisonnement de la “Chaîne de Pensée” (CoT) dans les grands modèles de langage (LLM), suggérant qu’il pourrait être moins un signe d’intelligence authentique et plus un “mirage fragile”. Cette recherche s’ajoute à un corpus croissant de travaux examinant la véritable profondeur du raisonnement des LLM, mais elle utilise de manière unique une lentille de “distribution de données” pour identifier systématiquement où et pourquoi les capacités de CoT faiblissent. De manière cruciale, pour ceux qui construisent des applications, l’article va au-delà de la simple critique, offrant des conseils pratiques sur la manière de gérer ces limitations dans les systèmes alimentés par des LLM, des stratégies de test au rôle du réglage fin.

L’incitation CoT, qui instruit un LLM à “penser étape par étape”, a donné des résultats impressionnants sur des tâches complexes, favorisant la croyance que ces modèles s’engagent dans des processus inférentiels similaires à ceux des humains. Cependant, un examen plus approfondi expose souvent des incohérences logiques qui remettent en question cette perception. Diverses études ont déjà indiqué que les LLM s’appuient fréquemment sur la sémantique de surface et des indices superficiels plutôt que sur de véritables procédures logiques. Les modèles génèrent une logique plausible en répétant des motifs d’unités linguistiques qu’ils ont rencontrés pendant l’entraînement. Pourtant, cette approche échoue souvent lorsque les tâches s’écartent des modèles familiers ou lorsque des informations non pertinentes sont introduites. Malgré ces observations, les chercheurs de l’ASU ont soutenu qu’une compréhension systématique des raisons et des moments où le raisonnement CoT échoue restait insaisissable, une lacune que leur étude visait à combler. Des travaux antérieurs ont déjà montré que les LLM ont du mal à généraliser leurs capacités de raisonnement, ne fonctionnant bien que lorsque les entrées de test partagent des structures sous-jacentes avec les données d’entraînement, avec une performance qui diminue fortement dans le cas contraire.

Les chercheurs de l’ASU proposent une nouvelle perspective : CoT n’est pas un acte de raisonnement abstrait, mais plutôt une forme sophistiquée de correspondance de motifs, fondamentalement contrainte par les motifs statistiques intégrés dans ses données d’entraînement. Ils postulent que le succès de CoT ne provient pas de la capacité de raisonnement inhérente d’un LLM, mais de sa capacité à appliquer conditionnellement des motifs existants à de nouvelles données structurellement similaires à ce qu’il a déjà appris. En substance, un LLM excelle à appliquer d’anciennes solutions à de nouveaux problèmes qui semblent familiers, mais rencontre des difficultés avec des défis véritablement nouveaux. Pour tester cette hypothèse, ils ont méticuleusement analysé les capacités de CoT à travers trois dimensions de “décalage distributionnel” – des changements entre les données d’entraînement et les données de test. Ils ont d’abord évalué la “généralisation des tâches” pour voir si un modèle pouvait appliquer un processus de raisonnement appris à un nouveau type de tâche. Ensuite, ils ont examiné la “généralisation de la longueur” pour déterminer s’il pouvait gérer des chaînes de raisonnement significativement plus longues ou plus courtes que celles sur lesquelles il avait été entraîné. Enfin, ils ont évalué la “généralisation du format” pour mesurer la sensibilité du modèle à des changements mineurs dans la formulation ou la structure d’une invite. Pour leur analyse, l’équipe a développé un cadre appelé DataAlchemy, qui leur a permis d’entraîner de plus petits LLM à partir de zéro dans un environnement contrôlé, mesurant précisément la dégradation des performances lorsque les modèles étaient poussés au-delà de leurs données d’entraînement. Comme Chengshuai Zhao, doctorant à l’ASU et co-auteur de l’article, l’a expliqué à VentureBeat : “La lentille de la distribution des données et l’environnement contrôlé sont tous deux essentiels à ce que nous essayions de transmettre. Nous espérons créer un espace où le public, les chercheurs et les développeurs pourront explorer et sonder librement la nature des LLM et repousser les limites du savoir humain.”

Sur la base de leurs découvertes, les chercheurs ont conclu que le raisonnement CoT est bien une “forme sophistiquée de correspondance de motifs structurée, fondamentalement limitée par la distribution des données observée pendant l’entraînement”. Lorsqu’il était testé même légèrement en dehors de cette distribution, la performance s’effondrait constamment. Ce qui semblait être un raisonnement structuré était, en fait, un mirage, “émergeant de motifs mémorisés ou interpolés dans les données d’entraînement plutôt que d’une inférence logique”. Cette rupture était cohérente à travers les trois dimensions du décalage distributionnel. Sur les nouvelles tâches, les modèles n’ont pas réussi à généraliser et ont plutôt simplement répliqué les motifs les plus proches qu’ils avaient précédemment rencontrés. Confrontés à des chaînes de raisonnement de différentes longueurs, ils ont eu du mal, tentant souvent d’ajouter ou de supprimer artificiellement des étapes pour correspondre à la longueur de leurs exemples d’entraînement. De plus, leurs performances se sont avérées très sensibles aux changements superficiels dans l’invite, en particulier les variations dans les éléments et les instructions fondamentales. Fait intéressant, les chercheurs ont constaté que ces échecs pouvaient être rapidement corrigés. En réglant finement les modèles sur un très petit échantillon des nouvelles données non vues par le biais d’un réglage fin supervisé (SFT), les performances sur ce type de problème spécifique se sont rapidement améliorées. Cependant, cette solution rapide renforce paradoxalement la théorie de la correspondance de motifs, suggérant que le modèle n’apprend pas à raisonner de manière plus abstraite, mais plutôt à mémoriser un nouveau motif pour surmonter une faiblesse spécifique.

Les chercheurs adressent un avertissement direct aux praticiens, soulignant “le risque de s’appuyer sur CoT comme solution prête à l’emploi pour les tâches de raisonnement et mettent en garde contre l’assimilation de la sortie de style CoT à la pensée humaine”. Ils fournissent trois conseils cruciaux aux développeurs qui construisent des applications avec des LLM. Premièrement, se prémunir contre la dépendance excessive et la fausse confiance. CoT ne doit pas être traité comme un module fiable pour le raisonnement dans des domaines à enjeux élevés comme la finance ou l’analyse juridique. Les LLM peuvent produire des “non-sens fluides” – un raisonnement plausible mais logiquement imparfait – qui est souvent plus trompeur qu’une réponse carrément incorrecte. Les auteurs soulignent qu’“un audit suffisant par des experts du domaine est indispensable”. Comme l’a noté Zhao, “L’avancement de la science doit rester centré sur l’humain – les machines peuvent aider, mais la découverte prospère toujours grâce à l’humanité et à la curiosité.” Deuxièmement, prioriser les tests hors distribution (OOD). La validation standard, où les données de test reflètent les données d’entraînement, est insuffisante pour mesurer la véritable robustesse. Les développeurs doivent mettre en œuvre des tests rigoureux qui sondent systématiquement les défaillances à travers les variations de tâches, de longueur et de format. Troisièmement, reconnaître le réglage fin comme un pansement, pas une panacée. Bien que le réglage fin supervisé puisse rapidement “corriger” les performances d’un modèle sur une nouvelle distribution de données spécifique, il ne favorise pas la véritable généralisation. Il ne fait qu’élargir légèrement la “bulle intra-distribution” du modèle. S’appuyer sur le SFT pour corriger chaque échec OOD est une stratégie insoutenable qui ne résout pas le manque fondamental de raisonnement abstrait du modèle.

Bien que CoT ne puisse pas émuler la cognition humaine, ses limitations sont gérables. La plupart des applications d’entreprise impliquent un ensemble de tâches relativement étroit et prévisible. Les conclusions de l’étude offrent un plan pour assurer la fiabilité dans ces domaines spécifiques. Les développeurs peuvent créer des suites d’évaluation rigoureuses qui testent systématiquement les performances du modèle par rapport aux variations précises de tâche, de longueur et de format que leur application rencontrera. Cette approche leur permet de cartographier clairement les limites de la zone de confort “intra-distribution” d’un modèle et d’identifier où elle s’aligne avec leurs besoins spécifiques. Ce test ciblé transforme le réglage fin d’un “pansement” réactif en une stratégie proactive d’alignement. Lorsque les évaluations révèlent une faiblesse spécifique, les développeurs peuvent créer de petits ensembles de données SFT ciblés pour y remédier. Au lieu de viser un raisonnement large et général, cette approche utilise le SFT de manière chirurgicale pour s’assurer que les capacités de correspondance de motifs du modèle sont précisément alignées sur les contours d’une tâche d’entreprise spécifique. En fin de compte, l’étude fournit un cadre pratique pour aller au-delà des hypothèses optimistes et concevoir des applications LLM pour un succès prévisible.

La 'Chaîne de Pensée' des LLM: Correspondance de motifs fragile, pas de vrai raisonnement - OmegaNext Actualités IA