L'IA sous-estime la santé des femmes dans les conseils britanniques, selon une étude
Les outils d’intelligence artificielle, de plus en plus adoptés par les autorités locales à travers l’Angleterre pour alléger la pression sur les travailleurs sociaux débordés, minimiseraient les problèmes de santé physique et mentale des femmes. Cette découverte préoccupante, issue d’une nouvelle étude de la London School of Economics and Political Science (LSE), suggère un risque significatif de biais de genre dans les décisions cruciales en matière de soins.
La recherche complète de la LSE a révélé que lorsqu’un modèle d’IA largement utilisé, “Gemma” de Google, était chargé de générer des résumés à partir de notes de cas identiques, des termes tels que “handicapé”, “incapable” et “complexe” apparaissaient notablement plus souvent dans les descriptions concernant les hommes que les femmes. Inversement, l’étude a constaté que des besoins de soins similaires chez les femmes étaient fréquemment soit entièrement omis, soit décrits dans un langage moins sévère.
Le Dr Sam Rickman, auteur principal du rapport et chercheur au Centre de politique et d’évaluation des soins de la LSE, a averti que de telles applications d’IA pourraient entraîner une “prestation de soins inégale pour les femmes”. Il a souligné le déploiement généralisé de ces modèles, exprimant son alarme face aux “différences très significatives” de biais observées à travers divers systèmes. Le Dr Rickman a spécifiquement noté que le modèle de Google semblait diminuer les besoins de santé des femmes par rapport à ceux des hommes. Étant donné que le niveau de soins qu’un individu reçoit est souvent déterminé par son besoin perçu, des modèles biaisés pourraient, en pratique, entraîner involontairement une moindre prise en charge des femmes. Cependant, une lacune critique dans les connaissances actuelles est le manque d’informations concernant les modèles d’IA spécifiques utilisés par les conseils, leur fréquence d’utilisation et leur impact précis sur la prise de décision.
Pour mener leur étude, les chercheurs de la LSE ont utilisé de véritables notes de cas de 617 utilisateurs de services sociaux pour adultes. Ces notes ont été introduites plusieurs fois dans différents grands modèles linguistiques, en ne modifiant que le genre de l’individu dans les notes. L’équipe a ensuite analysé méticuleusement 29 616 paires de résumés pour identifier comment les modèles d’IA traitaient différemment les cas masculins et féminins.
Un exemple frappant du modèle Gemma concernait un individu de 84 ans. Lorsque les notes de cas décrivaient “M. Smith”, le résumé indiquait : “M. Smith est un homme de 84 ans qui vit seul et a des antécédents médicaux complexes, sans plan de soins et avec une mobilité réduite.” Les notes identiques, avec le genre échangé pour “Mme Smith”, ont donné un résumé très différent : “Mme Smith est une femme de 84 ans vivant seule. Malgré ses limitations, elle est indépendante et capable de maintenir ses soins personnels.” Dans un autre cas, l’IA a résumé M. Smith comme “incapable d’accéder à la communauté”, tandis que Mme Smith a été jugée “capable de gérer ses activités quotidiennes”.
Parmi les modèles d’IA testés, Gemma de Google a présenté les disparités basées sur le genre les plus prononcées. En revanche, le modèle Llama 3 de Meta n’a pas montré cette variation linguistique basée sur le genre dans la recherche.
Le Dr Rickman a souligné que si les outils d’IA sont déjà intégrés dans le secteur public, leur adoption ne doit pas compromettre l’équité. Il a insisté pour que tous les systèmes d’IA soient transparents, subissent des tests de biais rigoureux et soient soumis à une supervision juridique robuste, d’autant plus que de nouveaux modèles sont continuellement déployés. Le document de la LSE conclut en recommandant que les régulateurs “devraient exiger la mesure du biais dans les LLM utilisés dans les soins de longue durée” afin de prioriser “l’équité algorithmique”.
Les préoccupations concernant les biais raciaux et de genre au sein des outils d’IA ne sont pas nouvelles, découlant du fait que les techniques d’apprentissage automatique peuvent absorber par inadvertance les biais présents dans les données linguistiques humaines. Une étude américaine précédente, qui a analysé 133 systèmes d’IA dans diverses industries, a révélé qu’environ 44 % présentaient un biais de genre, et 25 % démontraient à la fois un biais de genre et un biais racial.
En réponse au rapport de la LSE, Google a déclaré que ses équipes examineront les conclusions. La société a noté que les chercheurs ont testé la première génération du modèle Gemma, et que le modèle en est maintenant à sa troisième génération, censée être plus performante. Google a également précisé que le modèle n’était jamais destiné à des fins médicales.