Anthropic renforce la sécurité de Claude AI, interdit les armes CBRN
Dans une démarche significative reflétant les préoccupations croissantes concernant la sécurité de l’intelligence artificielle, Anthropic a mis à jour la politique d’utilisation de son chatbot Claude AI. Les directives révisées, qui ont discrètement pris effet, introduisent des interdictions plus strictes, notamment en ce qui concerne le développement d’armes dangereuses, tout en abordant les risques croissants posés par des outils d’IA de plus en plus autonomes.
Une révision clé, bien que non explicitement soulignée par Anthropic dans son résumé public des changements, est l’interdiction explicite d’utiliser Claude pour développer des armes biologiques, chimiques, radiologiques ou nucléaires (CBRN). Alors que la politique précédente de l’entreprise interdisait globalement l’utilisation de Claude pour « produire, modifier, concevoir, commercialiser ou distribuer des armes, des explosifs, des matériaux dangereux ou d’autres systèmes conçus pour causer des dommages ou la perte de vies humaines », la version mise à jour inclut désormais spécifiquement les « explosifs à haut rendement » aux côtés des catégories CBRN. Ce raffinement souligne un intérêt croissant de l’industrie à empêcher l’IA de contribuer à des dommages catastrophiques, s’appuyant sur des mesures de protection comme la protection « AI Safety Level 3 » qu’Anthropic a mise en œuvre en mai avec le lancement de son modèle Claude Opus 4, conçu pour rendre le système plus résistant à la manipulation et moins susceptible d’aider dans de telles entreprises dangereuses.
Au-delà du développement d’armes, Anthropic est également confronté aux défis émergents présentés par les « outils d’IA agentiques » – des systèmes capables d’agir de manière autonome. L’entreprise reconnaît spécifiquement les risques associés à des capacités telles que l’« Utilisation d’ordinateur », qui permet à Claude de contrôler l’ordinateur d’un utilisateur, et « Claude Code », un outil qui intègre directement l’IA dans le terminal d’un développeur. Ces fonctionnalités puissantes, note Anthropic, introduisent de « nouveaux risques, y compris le potentiel d’abus à grande échelle, la création de logiciels malveillants et les cyberattaques ».
Pour atténuer ces menaces, la politique mise à jour intègre une nouvelle section intitulée « Ne pas compromettre les systèmes informatiques ou de réseau ». Ce segment établit des règles claires contre l’exploitation de Claude pour découvrir ou exploiter des vulnérabilités système, créer ou distribuer des logiciels malveillants, ou développer des outils pour des attaques par déni de service, qui visent à perturber l’accès au réseau pour les utilisateurs légitimes. Ces ajouts reflètent une position proactive contre la potentielle militarisation de l’IA dans le domaine de la cybersécurité.
Dans un ajustement plus nuancé, Anthropic a également affiné sa position sur le contenu politique. Plutôt qu’une interdiction générale de tout contenu lié aux campagnes politiques et au lobbying, l’entreprise n’interdira désormais que les utilisations de Claude qui sont « trompeuses ou perturbatrices pour les processus démocratiques, ou qui impliquent le ciblage des électeurs et des campagnes ». Cela indique un changement vers l’autorisation d’un discours politique plus général tout en maintenant des interdictions strictes contre l’utilisation abusive à des fins de manipulation. De plus, Anthropic a clarifié que ses exigences pour les cas d’utilisation à « haut risque » – scénarios où Claude fournit des recommandations à des individus ou des clients – s’appliquent uniquement aux applications destinées aux consommateurs, et non aux interactions interentreprises, offrant ainsi plus de flexibilité pour le déploiement commercial.
Ces mises à jour complètes de la politique soulignent les efforts continus d’Anthropic pour naviguer dans le paysage éthique et de sécurité complexe de l’IA avancée, équilibrant l’innovation avec un engagement à prévenir l’utilisation abusive dans un monde numérique de plus en plus complexe.