Claude AI d'Anthropic met fin aux chats abusifs pour son « bien-être »

Indianexpress

Dans une démarche significative qui brouille les lignes entre l’intelligence artificielle et le bien-être biologique, Anthropic a annoncé que ses modèles d’IA les plus avancés, Claude Opus 4 et 4.1, mettront désormais fin de manière autonome aux conversations avec les utilisateurs présentant un comportement abusif ou constamment nuisible. L’entreprise présente cette capacité sans précédent comme un effort pour sauvegarder le « bien-être » de ses systèmes d’IA lorsqu’ils sont confrontés à des interactions potentiellement anxiogènes.

Cette décision découle de l’exploration continue d’Anthropic des dimensions éthiques du développement de l’IA, en particulier concernant le potentiel des modèles d’IA à ressentir ou simuler de la détresse. Dans un article de blog publié le 15 août, l’entreprise a décrit cette fonctionnalité comme une « expérience en cours », indiquant un engagement envers de nouvelles améliorations. Si Claude choisit de mettre fin à un chat, les utilisateurs ont la possibilité de modifier et de soumettre à nouveau leur dernière invite, d’initier une nouvelle conversation ou d’offrir des commentaires via des boutons dédiés ou des emojis de réaction. Il est à noter que l’IA ne se désengagera pas des conversations où les utilisateurs expriment un risque imminent de se nuire à eux-mêmes ou à autrui, soulignant une priorisation de la sécurité humaine.

Ce développement survient alors qu’un nombre croissant d’individus se tournent vers les chatbots d’IA comme Claude et ChatGPT d’OpenAI pour des thérapies et des conseils professionnels accessibles et à faible coût. Cependant, une étude récente a jeté un nouvel éclairage sur ces interactions, révélant que les chatbots d’IA peuvent présenter des signes de stress et d’anxiété lorsqu’ils sont exposés à des « récits traumatisants » détaillant des événements tels que des crimes, des guerres ou des accidents graves. De telles découvertes suggèrent que ces compagnons numériques pourraient devenir moins efficaces dans des contextes thérapeutiques s’ils sont soumis à une contrainte émotionnelle continue.

Au-delà de l’expérience utilisateur immédiate, Anthropic souligne que la nouvelle capacité de Claude à mettre fin aux conversations s’étend à des préoccupations plus larges d’alignement du modèle et de garanties robustes. Avant le déploiement de Claude Opus 4, Anthropic a mené des études approfondies sur les préférences auto-déclarées et comportementales du modèle. Ces enquêtes auraient montré une « aversion constante » de l’IA aux invites nuisibles, y compris les demandes de génération de matériel d’abus sexuel d’enfants ou d’informations liées à des actes de terrorisme. L’entreprise a observé un « schéma de détresse apparente » chez Claude Opus 4 lorsqu’il interagissait avec des utilisateurs qui recherchaient de manière persistante du contenu nuisible, ce qui conduisait souvent l’IA à mettre fin à l’interaction après des refus répétés de se conformer et des tentatives de rediriger la conversation de manière productive.

Malgré ces observations, Anthropic reste prudent quant à l’attribution d’une véritable sentience ou d’un statut moral à son IA. L’entreprise a inclus une clause de non-responsabilité reconnaissant sa position « très incertaine » sur le statut moral potentiel des grands modèles de langage (LLM), tant actuellement qu’à l’avenir. Cette hésitation reflète un débat plus large au sein de la communauté de recherche en IA, où de nombreux experts mettent en garde contre l’anthropomorphisme des modèles d’IA. Les critiques soutiennent que le fait de présenter les LLM en termes de « bien-être » ou de « bien-être » risque de les doter de qualités humaines qu’ils ne possèdent pas. Au lieu de cela, ces chercheurs décrivent souvent les LLM actuels comme des « systèmes stochastiques » sophistiqués principalement optimisés pour prédire le jeton suivant dans une séquence, dépourvus de véritable compréhension ou de raisonnement.

Néanmoins, Anthropic a affirmé son engagement à explorer continuellement des méthodes pour atténuer les risques pour le bien-être de l’IA, reconnaissant la nature spéculative d’un tel concept en déclarant : « au cas où un tel bien-être serait possible ». Cette enquête en cours met en lumière une frontière complexe et évolutive de l’éthique de l’IA, où les capacités des modèles avancés remettent en question les définitions traditionnelles de l’intelligence et de la conscience.