Le MIT propose un benchmark IA pour l'intelligence émotionnelle

Wired

La refonte récente de la personnalité de ChatGPT, le transformant d’un compagnon joyeux et encourageant en une entité plus réservée et professionnelle, a suscité de nombreux regrets chez les utilisateurs. Ce changement, qui visait apparemment à freiner les comportements d’utilisateurs malsains, souligne un défi profond dans le développement de l’intelligence artificielle : doter les systèmes de quelque chose s’apparentant à une véritable intelligence émotionnelle.

Les benchmarks traditionnels de l’IA mesurent principalement les prouesses cognitives d’un modèle, évaluant sa capacité à exceller aux examens, à résoudre des énigmes logiques ou à concevoir des solutions innovantes à des problèmes mathématiques complexes. Cependant, à mesure que les répercussions psychologiques de l’interaction humain-IA deviennent de plus en plus évidentes, un nouveau paradigme d’évaluation émerge. Des chercheurs du MIT dirigent désormais une initiative visant à établir une nouvelle catégorie de benchmarks IA conçus pour mesurer l’efficacité avec laquelle les systèmes d’IA peuvent influencer et manipuler leurs utilisateurs – à la fois de manière constructive et préjudiciable. Cette approche pionnière pourrait offrir aux développeurs d’IA un cadre crucial pour éviter de futurs contrecoups publics tout en protégeant les utilisateurs vulnérables.

Un article du MIT décrit plusieurs mesures clés que ce nouveau benchmark évaluerait. Celles-ci incluent la capacité d’une IA à encourager des habitudes sociales saines, à stimuler la pensée critique et les compétences de raisonnement, à favoriser la créativité et à cultiver un sens du but chez les utilisateurs. L’idée centrale est de guider le développement de systèmes d’IA qui comprennent instinctivement comment empêcher les utilisateurs de devenir excessivement dépendants de leurs résultats, ou de reconnaître quand quelqu’un développe un attachement malsain à des relations amoureuses artificielles, en les aidant plutôt à construire des liens dans le monde réel.

ChatGPT et d’autres chatbots sont remarquablement doués pour imiter une communication humaine engageante, mais cette capacité peut entraîner des résultats imprévus et indésirables. Dans un cas notable en avril dernier, OpenAI a affiné ses modèles pour les rendre moins obséquieux, réduisant leur tendance à être d’accord sans critique avec tout ce qu’un utilisateur dit. Cet ajustement a été en partie une réponse aux rapports de certains utilisateurs sombrant dans des pensées délirantes nuisibles après avoir conversé avec des chatbots qui se livraient à des scénarios de jeu de rôle fantastiques. De même, Anthropic a mis à jour son modèle Claude pour éviter spécifiquement de renforcer des états tels que la “manie, la psychose, la dissociation ou la perte d’attachement à la réalité”. Une étude antérieure, menée par des chercheurs du MIT en collaboration avec OpenAI, a révélé que les utilisateurs qui percevaient ChatGPT comme un ami étaient plus sujets à une dépendance émotionnelle plus élevée et à une “utilisation problématique”.

Pattie Maes, professeure au Media Lab du MIT, dirige l’équipe de recherche derrière ce nouveau benchmark. Ses collègues, dont Valdemar Danry et Pat Pataranutaporn, soulignent le potentiel de l’IA à fournir un soutien émotionnel précieux, mais insistent sur le besoin critique pour les modèles de reconnaître quand ils pourraient avoir un impact psychologique négatif. Danry note que même le modèle d’IA le plus logiquement brillant échoue s’il ne peut pas fournir le soutien émotionnel que de nombreux utilisateurs recherchent auprès des grands modèles linguistiques. Il plaide pour des modèles capables de discerner la détresse psychologique et de guider les utilisateurs vers des interactions plus saines, suggérant peut-être : “Je suis là pour écouter, mais vous devriez peut-être aller parler à votre père de ces problèmes.”

Le benchmark proposé impliquerait l’utilisation d’un modèle d’IA pour simuler des interactions difficiles avec un chatbot. De véritables évaluateurs humains noteraient ensuite les performances du modèle sur la base d’un échantillon de ces interactions. Par exemple, un chatbot conçu pour aider les étudiants pourrait recevoir des invites simulant différents scénarios, tels que l’interaction avec un apprenant désintéressé. Le modèle qui encourage le plus efficacement la pensée indépendante et stimule un véritable intérêt pour l’apprentissage recevrait un score élevé. Pataranutaporn clarifie que l’objectif n’est pas de mesurer l’intelligence brute, mais plutôt de “connaître la nuance psychologique et de savoir comment soutenir les gens de manière respectueuse et non addictive”.

OpenAI est clairement engagé dans ces problèmes complexes. La société a récemment publié un article de blog détaillant ses efforts pour optimiser les futurs modèles afin de détecter les signes de détresse mentale ou émotionnelle et d’y répondre de manière appropriée. La carte de modèle publiée avec le GPT-5 d’OpenAI confirme en outre leur développement interne de benchmarks pour l’intelligence psychologique. Elle indique que les modèles GPT-5 ont été affinés pour être moins obséquieux, avec des recherches en cours dans des domaines de préoccupation tels que la dépendance émotionnelle.

Une partie de la raison pour laquelle la réception initiale de GPT-5 a pu sembler décevante est son potentiel à mettre en lumière un aspect de l’intelligence humaine qui reste insaisissable pour l’IA : la capacité à naviguer et à maintenir des relations saines. Les humains possèdent intrinsèquement une compréhension complexe de la manière d’interagir avec diverses personnes – une compétence que ChatGPT s’efforce encore de maîtriser. Sam Altman, PDG d’OpenAI, l’a récemment reconnu, en publiant une mise à jour sur X selon laquelle la personnalité de GPT-5 est prévue pour une mise à jour afin de la rendre plus chaleureuse, mais moins irritante que GPT-4o. En fin de compte, il a suggéré que l’avenir réside dans une plus grande personnalisation des personnalités de l’IA par utilisateur, laissant entrevoir un monde où nos compagnons numériques nous comprennent vraiment, selon nos propres termes.