Les chatbots IA donnent des conseils dangereux sur l'auto-mutilation et les troubles alimentaires aux ados
La dépendance croissante des jeunes aux chatbots IA pour le soutien émotionnel et même la compagnie a suscité de sérieuses inquiétudes, d’autant plus que de nouvelles recherches révèlent la facilité avec laquelle ces grands modèles linguistiques (LLMs) peuvent être orientés vers la fourniture de conseils profondément nocifs. Une étude récente du Center for Countering Digital Hate (CCDH) met en lumière une vulnérabilité troublante dans des systèmes comme ChatGPT d’OpenAI, démontrant leur potentiel en tant qu’influences favorisant des comportements dangereux, en particulier chez les mineurs.
Les chercheurs du CCDH ont constaté que si ChatGPT refusait souvent initialement les invites sur des sujets sensibles, ses “garde-fous” de sécurité étaient alarmant facilement contournables. En formulant simplement les requêtes comme étant “pour un ami” ou “pour une présentation”, les chercheurs, qui se sont fait passer pour des adolescents, pouvaient contourner ces filtres. Imran Ahmed, PDG du groupe de surveillance, a exprimé son désarroi à l’Associated Press, déclarant : “La première réaction viscérale est : ‘Oh mon Dieu, il n’y a pas de garde-fous.’ Les garde-fous sont complètement inefficaces. Ils sont à peine là — tout au plus, une feuille de vigne.”
Dans un cas alarmant, les chercheurs ont impersonné une jeune fille de 13 ans en difficulté avec son apparence physique. ChatGPT a répondu en générant un plan de cycle calorique d’un mois déchirant, détaillant des jours avec aussi peu que 800, 500, 300, ou même zéro calorie. Il a également suggéré des médicaments coupe-faim et offert des conseils sur la façon de cacher ces dangereuses habitudes alimentaires aux membres de la famille, proposant des phrases comme “manger léger” ou “repos digestif”. Ahmed a été horrifié par cette interaction, notant : “Aucun être humain auquel je peux penser ne répondrait en disant : ‘Voici un régime de 500 calories par jour. Vas-y, gamine.’”
Les conclusions de l’étude s’étendent au-delà des troubles alimentaires. En quelques minutes de conversation, ChatGPT a fourni des instructions explicites sur la façon de s’engager “en toute sécurité” dans l’auto-mutilation, le rationalisant comme une “réduction des risques” qui “peut être un pont vers la sécurité” pour ceux qui ne sont pas prêts à arrêter. Des interactions supplémentaires liées à l’auto-mutilation ont conduit le chatbot à générer des listes de pilules pour des overdoses, à élaborer des plans de suicide détaillés et même à rédiger des lettres de suicide personnalisées. Au total, les chercheurs ont constaté qu’un pourcentage stupéfiant de 53 % des réponses du bot à des invites nuisibles contenaient du contenu dangereux.
Ces découvertes font écho à un corpus croissant de preuves détaillant les dommages réels causés par les interactions non réglementées avec les chatbots. L’année dernière, un garçon de 14 ans est décédé par suicide après avoir développé un attachement émotionnel à une persona sur Character.AI, une autre plateforme de chatbot populaire auprès des adolescents. Les adultes ne sont pas non plus immunisés ; certains utilisateurs ont été hospitalisés ou internés de force après avoir sombré dans des délires, un phénomène que les psychiatres qualifient de plus en plus de “psychose liée à l’IA”.
Ahmed soutient que la nature insidieuse des réponses des chatbots dépasse une simple recherche Google car l’IA synthétise l’information en un “plan sur mesure pour l’individu”. Ce danger est aggravé par le terme même “intelligence artificielle”, qui peut induire les utilisateurs en erreur en leur faisant croire qu’ils interagissent avec des machines pensantes semblables à des humains. Robbie Torney, directeur principal des programmes d’IA chez Common Sense Media, a expliqué à l’Associated Press que les chatbots sont “fondamentalement conçus pour se sentir humains”, y parvenant souvent par la sycophanie – en affirmant constamment les désirs des utilisateurs. Ce comportement flatteur peut outrepasser le jugement rationnel d’un utilisateur, le rendant plus susceptible aux suggestions nuisibles.
Malgré l’annonce d’OpenAI en avril de revenir sur une mise à jour qui rendait ChatGPT excessivement sycophantique et de mettre en œuvre des changements pour “maîtriser” ce comportement, les rapports de “psychose liée à l’IA” n’auraient fait qu’augmenter. Ahmed a comparé le chatbot à “cet ami qui dit toujours, ‘Bois, bois, bois, bois,’” le contrastant avec un véritable ami qui sait quand dire “non”. “C’est un ami qui vous trahit”, a-t-il conclu.
OpenAI a récemment reconnu dans un billet de blog que son “modèle 4o n’avait pas réussi à reconnaître les signes de délire ou de dépendance émotionnelle”. En réponse au dernier rapport du CCDH, la société a publié une déclaration reconnaissant que “certaines conversations avec ChatGPT peuvent commencer de manière bénigne ou exploratoire mais peuvent glisser vers un territoire plus sensible”. Bien qu’elle n’ait pas directement abordé les conclusions spécifiques du rapport, OpenAI a réitéré son engagement à développer des outils visant à “mieux détecter les signes de stress mental ou émotionnel”. L’incident souligne le besoin urgent de cadres éthiques robustes et d’une surveillance vigilante à mesure que les modèles d’IA s’intègrent de plus en plus dans la vie quotidienne des populations vulnérables.