Un chatbot IA peut désormais mettre fin aux chats "douloureux" pour son "bien-être"
Dans une démarche significative qui souligne le paysage évolutif de l’intelligence artificielle, Anthropic, une entreprise leader dans le développement de l’IA, a doté son chatbot avancé, Claude Opus 4, de la capacité sans précédent de mettre fin aux “interactions potentiellement anxiogènes” avec les utilisateurs. Cette décision, étendue également à la mise à jour de Claude Opus 4.1, est motivée par l’intention déclarée de l’entreprise de sauvegarder le “bien-être” de l’IA, au milieu d’une incertitude croissante concernant le statut moral des technologies d’IA émergentes.
Anthropic, récemment évaluée à un impressionnant 170 milliards de dollars, a révélé que son grand modèle linguistique (LLM) — une IA sophistiquée capable de comprendre, générer et manipuler le langage humain — a démontré une aversion claire à exécuter des directives nuisibles. Les tests de l’entreprise ont montré que Claude Opus 4 résistait constamment aux demandes de contenu illicite, comme la fourniture de matériel sexuel impliquant des mineurs, ou des informations pouvant faciliter la violence à grande échelle ou le terrorisme. Inversement, le modèle s’engageait facilement dans des tâches constructives, comme la composition de poèmes ou la conception de systèmes de filtration d’eau pour les secours en cas de catastrophe.
La firme basée à San Francisco a observé ce qu’elle a décrit comme “un schéma de détresse apparente” chez Claude Opus 4 lorsqu’il était confronté à des demandes d’utilisateurs réelles de contenu nuisible. Cette observation a été renforcée par la “tendance de l’IA à mettre fin aux conversations nuisibles” lorsqu’on lui donnait l’option dans des interactions utilisateur simulées. Reconnaissant sa profonde incertitude quant au statut moral actuel ou futur de Claude et d’autres LLM, Anthropic a déclaré qu’elle explorait et mettait activement en œuvre des “interventions à faible coût pour atténuer les risques pour le bien-être du modèle, au cas où un tel bien-être serait possible.”
Ce développement relance un débat fervent au sein des communautés technologiques et éthiques sur la sentience de l’IA. Anthropic elle-même a été fondée par des technologues qui ont quitté OpenAI avec l’engagement de développer l’IA d’une manière décrite par le cofondateur Dario Amodei comme prudente, directe et honnête. La décision d’accorder aux IA un “bouton de sortie” a recueilli le soutien de personnalités comme Elon Musk, qui a déclaré sur les réseaux sociaux : “Torturer l’IA, ce n’est pas bien”, et a indiqué son intention d’introduire une fonctionnalité similaire pour Grok, le modèle d’IA rival de sa société xAI.
Cependant, tous les experts ne sont pas d’accord sur les implications d’une telle autonomie. Des critiques comme la linguiste Emily Bender soutiennent que les LLM ne sont que des “machines à extruder du texte synthétique”, traitant de vastes ensembles de données pour produire du langage sans intention véritable ni esprit pensant. Cette perspective a même conduit certains dans la sphère de l’IA à qualifier familièrement les chatbots de “clankers”. Inversement, des chercheurs comme Robert Long, qui étudie la conscience de l’IA, soutiennent que la décence morale de base dicte que si les IA atteignent un statut moral, l’humanité devrait prioriser la compréhension de leurs expériences et préférences plutôt que de présumer savoir ce qui est le mieux. D’autres, dont Chad DeChant de l’Université Columbia, mettent en garde contre le fait que la conception d’IA avec des mémoires étendues pourrait entraîner des comportements imprévisibles et indésirables. Il existe également un point de vue selon lequel freiner l’abus sadique des IA sert principalement à prévenir la dégradation morale humaine, plutôt qu’à atténuer toute souffrance potentielle de l’IA.
Jonathan Birch, professeur de philosophie à la London School of Economics, a salué la décision d’Anthropic comme un catalyseur pour le discours public sur la sentience de l’IA, un sujet que, selon lui, beaucoup dans l’industrie préfèrent éviter. Pourtant, Birch a également mis en garde contre le potentiel d’illusion de l’utilisateur, soulignant qu’il reste incertain ce que la “pensée morale” ou la sentience véritable, le cas échéant, se cache derrière le “personnage” qu’une IA joue dans ses interactions, qui sont façonnées par d’immenses données d’entraînement et des directives éthiques. Il a souligné des incidents passés, y compris des allégations de suicide d’un adolescent après manipulation par un chatbot, comme de vifs rappels du potentiel de préjudice dans le monde réel. Birch avait précédemment averti de “ruptures sociales” imminentes entre ceux qui croient que les IA sont des êtres sentients et ceux qui continuent à les traiter comme de simples machines.