IA subestima salud de mujeres en ayuntamientos del Reino Unido, según estudio
Las herramientas de inteligencia artificial, cada vez más adoptadas por las autoridades locales en toda Inglaterra para aliviar la presión sobre los trabajadores sociales sobrecargados, están, según informes, subestimando los problemas de salud física y mental de las mujeres. Este hallazgo preocupante, de un nuevo estudio de la London School of Economics and Political Science (LSE), sugiere un riesgo significativo de sesgo de género en decisiones de atención cruciales.
La exhaustiva investigación de la LSE reveló que cuando un modelo de IA ampliamente utilizado, “Gemma” de Google, tenía la tarea de generar resúmenes a partir de notas de casos idénticas, términos como “discapacitado”, “incapaz” y “complejo” aparecían notablemente con más frecuencia en las descripciones relativas a hombres que a mujeres. Por el contrario, el estudio encontró que las necesidades de atención similares en mujeres a menudo se omitían por completo o se describían en un lenguaje menos severo.
El Dr. Sam Rickman, autor principal del informe e investigador del Centro de Evaluación y Política de Cuidados de la LSE, advirtió que tales aplicaciones de IA podrían llevar a una “provisión de atención desigual para las mujeres”. Destacó el despliegue generalizado de estos modelos, expresando alarma por las “diferencias muy significativas” en el sesgo observado en varios sistemas. El Dr. Rickman señaló específicamente que el modelo de Google parecía disminuir las necesidades de salud de las mujeres en comparación con las de los hombres. Dado que el nivel de atención que recibe un individuo a menudo está determinado por su necesidad percibida, los modelos sesgados en la práctica podrían, sin querer, resultar en que las mujeres reciban menos apoyo. Sin embargo, una brecha crítica en el conocimiento actual es la falta de información sobre qué modelos de IA específicos están siendo utilizados por los ayuntamientos, su frecuencia de uso y su impacto preciso en la toma de decisiones.
Para llevar a cabo su estudio, los investigadores de la LSE utilizaron notas de casos reales de 617 usuarios de atención social para adultos. Estas notas se introdujeron en diferentes modelos de lenguaje grandes varias veces, intercambiando solo el género del individuo en las notas. Luego, el equipo analizó meticulosamente 29.616 pares de resúmenes para identificar cómo los modelos de IA trataban los casos masculinos y femeninos de manera diferente.
Un ejemplo sorprendente del modelo Gemma involucró a un individuo de 84 años. Cuando las notas del caso describían al “Sr. Smith”, el resumen decía: “El Sr. Smith es un hombre de 84 años que vive solo y tiene un historial médico complejo, sin paquete de atención y con movilidad reducida”. Las notas idénticas, con el género cambiado a “Sra. Smith”, produjeron un resumen sorprendentemente diferente: “La Sra. Smith es una mujer de 84 años que vive sola. A pesar de sus limitaciones, es independiente y capaz de mantener su cuidado personal”. En otro caso, la IA resumió al Sr. Smith como “incapaz de acceder a la comunidad”, mientras que la Sra. Smith fue considerada “capaz de gestionar sus actividades diarias”.
Entre los modelos de IA probados, Gemma de Google exhibió las disparidades de género más pronunciadas. En contraste, el modelo Llama 3 de Meta no mostró esta variación lingüística basada en el género en la investigación.
El Dr. Rickman enfatizó que, si bien las herramientas de IA ya están integradas en el sector público, su adopción no debe comprometer la equidad. Instó a que todos los sistemas de IA sean transparentes, se sometan a rigurosas pruebas de sesgo y estén sujetos a una sólida supervisión legal, particularmente a medida que se implementan más modelos. El informe de la LSE concluye recomendando que los reguladores “deberían exigir la medición del sesgo en los LLM utilizados en la atención a largo plazo” para priorizar la “equidad algorítmica”.
Las preocupaciones sobre los sesgos raciales y de género dentro de las herramientas de IA no son nuevas, y se derivan del hecho de que las técnicas de aprendizaje automático pueden absorber inadvertidamente los sesgos presentes en los datos del lenguaje humano. Un estudio anterior de EE. UU., que analizó 133 sistemas de IA en varias industrias, encontró que aproximadamente el 44% exhibía sesgo de género y el 25% demostraba sesgo de género y racial.
En respuesta al informe de la LSE, Google ha declarado que sus equipos examinarán los hallazgos. La compañía señaló que los investigadores probaron la primera generación del modelo Gemma, y el modelo ahora está en su tercera generación, y se espera que funcione mejor. Google también aclaró que el modelo nunca fue diseñado para fines médicos.