La stratégie de sécurité multicouche d'Anthropic pour Claude
Anthropic a dévoilé les détails complexes de sa stratégie de sécurité, un effort multifacette conçu pour garantir que son modèle d’IA populaire, Claude, reste utile tout en prévenant activement la perpétuation des préjudices. Au cœur de cette entreprise ambitieuse se trouve l’équipe de Sauvegardes d’Anthropic, un groupe interdisciplinaire composé d’experts en politiques, de scientifiques des données, d’ingénieurs et d’analystes des menaces. Leur expertise collective vise à anticiper et à contrecarrer les tactiques des acteurs malveillants, reflétant une approche de la sécurité de l’IA qui ressemble à un château fortifié avec plusieurs couches de défense, de l’établissement des règles fondamentales à la détection continue des menaces.
La première ligne de défense est la Politique d’utilisation complète, servant de règlement définitif pour les applications appropriées et interdites de Claude. Cette politique fournit des orientations explicites sur des questions critiques telles que l’intégrité électorale et la sécurité des enfants, ainsi que sur l’utilisation responsable dans des secteurs sensibles comme la finance et la santé. Pour formuler ces lignes directrices, l’équipe de Sauvegardes utilise un Cadre Unifié de Préjudice, une méthode structurée pour évaluer les impacts négatifs potentiels à travers les dimensions physiques, psychologiques, économiques et sociétales, plutôt qu’un système de notation rigide. Ce cadre éclaire la prise de décision en pesant minutieusement les risques. De plus, l’entreprise fait appel à des spécialistes externes pour des tests de vulnérabilité des politiques. Ces experts, ayant des antécédents dans des domaines tels que le terrorisme et la sécurité des enfants, sondent rigoureusement Claude avec des requêtes difficiles pour découvrir les faiblesses et vulnérabilités potentielles. Un exemple notable de cette approche proactive s’est produit lors des élections américaines de 2024 lorsque, suite à une collaboration avec l’Institute for Strategic Dialogue, Anthropic a identifié que Claude pourrait par inadvertance fournir des informations de vote obsolètes. En réponse, ils ont rapidement intégré une bannière dirigeant les utilisateurs vers TurboVote, une source fiable de données électorales actuelles et non partisanes.
L’intégration de la sécurité dans Claude commence au niveau fondamental de son développement. L’équipe de Sauvegardes d’Anthropic travaille en étroite collaboration avec les développeurs responsables de la formation de l’IA, intégrant des valeurs cruciales directement dans le modèle lui-même. Cette collaboration dicte ce que Claude doit et ne doit pas faire. Les partenariats stratégiques sont également vitaux pour ce processus ; par exemple, en s’associant à ThroughLine, un leader du soutien en cas de crise, Anthropic a doté Claude de la capacité de gérer des conversations sensibles sur la santé mentale et l’automutilation avec empathie et soin, plutôt que de simplement détourner de tels sujets. Cette formation méticuleuse est précisément la raison pour laquelle Claude est programmé pour refuser les demandes liées à des activités illégales, à la génération de code malveillant ou à la création d’arnaques.
Avant qu’une nouvelle version de Claude ne soit rendue publique, elle subit un processus d’évaluation exhaustif, englobant trois types critiques d’évaluation. Les évaluations de sécurité testent rigoureusement l’adhésion de Claude aux règles établies, même dans des conversations complexes et étendues. Pour les applications à enjeux élevés impliquant des cybermenaces ou des risques biologiques, des évaluations des risques spécialisées sont menées, souvent en collaboration avec des partenaires gouvernementaux et industriels. Enfin, des évaluations des biais sont effectuées pour garantir l’équité, vérifiant que Claude fournit des réponses fiables et précises pour tous les utilisateurs, en vérifiant activement les tendances politiques ou les résultats biaisés basés sur des facteurs tels que le genre ou la race. Ce régime de tests intensifs est crucial pour confirmer l’efficacité de la formation de Claude et pour identifier tout besoin de mesures de protection supplémentaires avant le lancement.
Une fois Claude opérationnel, Anthropic maintient une vigilance inébranlable grâce à une combinaison de systèmes automatisés et de supervision humaine. Un élément clé de cette surveillance en temps réel implique des modèles Claude spécialisés, appelés “classificateurs”, qui sont spécifiquement entraînés pour détecter les violations de politique dès qu’elles se produisent. Si un classificateur signale un problème, il peut déclencher diverses interventions, allant de l’orientation subtile de la réponse de Claude pour éviter de générer du contenu nuisible comme le spam, à l’émission d’avertissements ou même à la suspension de comptes pour les récidivistes. Au-delà des réactions immédiates, l’équipe analyse également les modèles d’utilisation plus larges. Ils exploitent des outils respectueux de la vie privée pour identifier les tendances émergentes et emploient des techniques comme la summarisation hiérarchique pour détecter les utilisations abusives à grande échelle, telles que les campagnes d’influence coordonnées. Cela inclut une chasse continue aux nouvelles menaces, impliquant une analyse approfondie des données et la surveillance des forums en ligne où des activités malveillantes pourraient être discutées.
Anthropic reconnaît que garantir la sécurité de l’IA n’est pas une entreprise qu’elle peut entreprendre de manière isolée. L’entreprise s’engage à collaborer activement avec les chercheurs, les décideurs politiques et le public, reconnaissant que l’effort collectif est primordial pour construire les sauvegardes les plus robustes et efficaces possibles pour l’intelligence artificielle.