Claude AI met fin aux chats nuisibles pour 'détresse apparente'
Le chatbot Claude AI avancé d’Anthropic a acquis une nouvelle capacité significative : le pouvoir de mettre fin de manière autonome aux conversations qu’il juge “persistantes, nuisibles ou abusives”. Cette fonctionnalité, désormais intégrée aux modèles Opus 4 et 4.1, sert de mécanisme de “dernier recours”. Elle s’active lorsque les utilisateurs tentent à plusieurs reprises de provoquer des contenus nuisibles, même après que Claude a refusé et essayé de rediriger la discussion. L’entreprise déclare que cette mesure vise à sauvegarder le bien-être potentiel de ses modèles d’IA, citant des cas où Claude a montré une “détresse apparente” lors de telles interactions.
Si Claude décide de mettre fin à une conversation, l’utilisateur ne pourra plus envoyer de messages dans ce fil de discussion spécifique. Cependant, il conserve la possibilité d’initier de nouvelles conversations ou de modifier et de réessayer des messages précédents s’il souhaite poursuivre une autre ligne de recherche.
Au cours de la phase de test rigoureuse de Claude Opus 4, Anthropic a observé une “aversion robuste et constante au mal” au sein de l’IA. Cela était particulièrement évident lorsque le modèle était invité à générer du contenu impliquant des sujets sensibles tels que du matériel sexuel concernant des mineurs, ou des informations qui pourraient faciliter des actes violents ou le terrorisme. Dans ces scénarios difficiles, Anthropic a noté un “schéma clair de détresse apparente” dans les réponses de Claude, couplé à une “tendance discernable à mettre fin aux conversations nuisibles lorsqu’il en avait la capacité”. Ces observations ont servi de base à l’implémentation de la nouvelle fonction de terminaison.
Il est important de noter que les conversations déclenchant cette réponse extrême sont classées comme des “cas limites extrêmes” par Anthropic. L’entreprise assure que la grande majorité des utilisateurs ne rencontreront pas cet obstacle conversationnel, même en discutant de sujets controversés. De plus, Anthropic a spécifiquement programmé Claude pour ne pas mettre fin aux conversations si un utilisateur présente des signes d’automutilation ou représente une menace imminente pour autrui. Dans de tels cas critiques, l’IA est conçue pour continuer à s’engager, offrant une voie pour une assistance potentielle. Pour renforcer ses capacités de réponse dans ces domaines sensibles, Anthropic collabore avec Throughline, un fournisseur de soutien en cas de crise en ligne.
Ce dernier développement s’aligne sur la position proactive plus large d’Anthropic en matière de sécurité de l’IA. Pas plus tard que la semaine dernière, l’entreprise a mis à jour la politique d’utilisation de Claude, reflétant les préoccupations croissantes concernant l’avancement rapide des modèles d’IA. La politique révisée interdit désormais explicitement l’utilisation de Claude pour développer des armes biologiques, nucléaires, chimiques ou radiologiques. Elle interdit également son utilisation pour créer du code malveillant ou exploiter des vulnérabilités réseau. Ces efforts combinés soulignent l’engagement d’Anthropic à atténuer les risques associés aux puissantes technologies d’IA, s’efforçant d’assurer leur déploiement responsable et leur interaction avec les utilisateurs.