La IA Med-Gemini de Google inventa un órgano, desata alarmas de seguridad
El modelo de inteligencia artificial de atención médica de Google, Med-Gemini, generó recientemente una estructura anatómica inexistente en un informe de diagnóstico, un error que los expertos médicos destacan como una demostración crítica de los riesgos asociados con la implementación de la IA en entornos clínicos. El incidente, inicialmente minimizado por Google como un “error tipográfico”, ha encendido una discusión más amplia sobre las “alucinaciones” de la IA y la seguridad del paciente.
El error específico apareció en un artículo de investigación de 2024 que presentaba a Med-Gemini, donde la IA diagnosticó un “infarto antiguo de los ganglios basilares izquierdos”. El neurólogo certificado y el investigador de IA Bryan Moore identificaron que “ganglios basilares” es una fusión de dos estructuras cerebrales distintas: los “ganglios basales”, que ayudan al control motor y al aprendizaje, y la “arteria basilar”, que suministra sangre al tronco encefálico. Las condiciones que afectan estas áreas requieren tratamientos muy diferentes. Moore señaló el error a Google, que posteriormente realizó una edición silenciosa y no reconocida en su entrada de blog adjunta, cambiando “ganglios basilares” a “ganglios basales”. Tras el escrutinio público de Moore, Google revirtió el cambio de la entrada del blog, pero añadió una leyenda aclaratoria, atribuyendo el error a una “mala transcripción común” aprendida de los datos de entrenamiento. De manera crucial, el artículo de investigación original, coescrito por más de 50 personas y revisado por pares, sigue sin corregir.
Med-Gemini es un conjunto de modelos de IA diseñados para ayudar a los profesionales médicos resumiendo datos de salud, generando informes de radiología y analizando registros de salud electrónicos. Google lo promocionó inicialmente como un “salto adelante” con un “potencial sustancial” en varios campos médicos. Aunque todavía se encuentra en las primeras etapas de prueba, con su “programa de probadores de confianza” que probablemente se expandirá a escenarios piloto del mundo real, las implicaciones de los errores de la IA están aumentando.
Los profesionales médicos están expresando una profunda preocupación por tales imprecisiones. Maulin Shah, Director de Información Médica de Providence, un gran sistema de atención médica, describió el error como “súper peligroso”, enfatizando la diferencia crítica que unas pocas letras pueden marcar en un contexto médico. Destacó el riesgo de que la IA propague información incorrecta, citando un ejemplo en el que la IA podría difundir un error humano de las notas médicas, lo que llevaría a decisiones basadas en datos erróneos. El portavoz de Google, Jason Freidenfelds, declaró que la compañía se asocia con la comunidad médica y es transparente sobre las limitaciones de sus modelos, calificando el error específico como una “aclaración” de una “patología omitida”.
El problema se extiende más allá de Med-Gemini. Otro modelo de atención médica de Google, MedGemma, demostró recientemente inconsistencias. La Dra. Judy Gichoya, profesora asociada de la Facultad de Medicina de la Universidad de Emory, descubrió que la precisión diagnóstica de MedGemma variaba significativamente según la forma en que se formulaban las preguntas. Una consulta detallada podría arrojar un diagnóstico correcto, mientras que una más simple para la misma imagen podría resultar en una evaluación “normal”, pasando por alto problemas críticos como el neumoperitoneo (gas debajo del diafragma).
A los expertos les preocupa que la precisión general de los sistemas de IA pueda llevar a los profesionales médicos humanos a la complacencia, un fenómeno conocido como sesgo de automatización. El Dr. Jonathan Chen de la Facultad de Medicina de Stanford describió esto como un “momento umbral muy extraño” en el que las herramientas de IA se están adoptando demasiado rápido, a pesar de su inmadurez. Subrayó que, aunque la IA a veces funcione bien, sus resultados aparentemente autoritarios pero incorrectos pueden ser muy engañosos.
El consenso entre los expertos médicos es que la IA en la atención médica debe someterse a un estándar significativamente más alto que las tasas de error humanas. Shah aboga por las “alertas de confabulación”, sistemas de IA diseñados para identificar y señalar posibles alucinaciones de otros modelos de IA, ya sea reteniendo la información o emitiendo advertencias. Gichoya señaló que la tendencia de la IA a “inventar cosas” en lugar de admitir “no lo sé” es un problema importante en campos de alto riesgo como la medicina. El Dr. Michael Pencina, científico jefe de datos en Duke Health, considera el error de Med-Gemini más como una alucinación que como un error tipográfico, lo que subraya las graves consecuencias de tales errores en aplicaciones de alto riesgo. Comparó la etapa actual del desarrollo de la IA con el “Viejo Oeste”.
Aunque reconocen los beneficios potenciales, expertos como Chen advierten contra la confianza ciega en la IA, comparándola con una analogía de un coche sin conductor donde la complacencia lleva al peligro. Enfatizan que, si bien la IA puede aumentar la atención médica, no debe reemplazar la supervisión humana crítica. El incidente con Med-Gemini destaca la necesidad urgente de pruebas más rigurosas, corrección de errores transparente y un enfoque cauteloso y deliberado para integrar la IA en la práctica clínica, donde incluso “lo imperfecto puede parecer intolerable”.