GPT-5 decepciona: la IA se enfoca en aplicaciones, no solo investigación

Technologyreview

Sam Altman, CEO de OpenAI, generó expectativas excepcionalmente altas para GPT-5 antes de su lanzamiento el pasado jueves, afirmando que sus capacidades lo hacían sentir “inútil en relación con la IA” y evocando paralelismos con los desarrolladores de la bomba atómica. Esta nueva oferta se posicionó no solo como una mejora incremental, sino como un paso fundamental hacia la inteligencia artificial general (AGI), la frontera de la IA largamente prometida que los evangelistas creen que transformará fundamentalmente la humanidad para mejor. Sin embargo, en este contexto de inmensa anticipación, GPT-5 ha decepcionado en gran medida.

Los primeros probadores y críticos han destacado rápidamente errores evidentes en las respuestas de GPT-5, contradiciendo directamente la afirmación de Altman el día del lanzamiento de que el modelo opera como “un experto legítimo a nivel de doctorado en cualquier área que necesites bajo demanda”. También han surgido problemas con la promesa de OpenAI de que GPT-5 discerniría automáticamente el modelo de IA óptimo para una consulta dada, ya sea un modelo de razonamiento complejo o uno más rápido y simple. El propio Altman parece haber admitido que esta característica es defectuosa y compromete el control del usuario. En una nota más positiva, el nuevo modelo supuestamente aborda la tendencia de la iteración anterior a halagar excesivamente a los usuarios, mostrando GPT-5 menos inclinación a colmarlos de cumplidos efusivos. En general, como han señalado algunos observadores, el lanzamiento se siente más como una actualización de producto pulida, que ofrece interfaces conversacionales más elegantes y estéticamente agradables, en lugar de un salto innovador en las capacidades de la IA.

Este avance aparentemente modesto en inteligencia bruta refleja un cambio más amplio dentro de la industria de la IA. Durante un período, las empresas de IA se centraron principalmente en construir los modelos más inteligentes posibles, similar a un “cerebro” universal, confiando en que la inteligencia general se traduciría naturalmente en diversas aplicaciones, desde la poesía hasta la química orgánica. La estrategia giraba en torno a la escala de modelos, el refinamiento de las técnicas de entrenamiento y la búsqueda de avances técnicos fundamentales. Sin embargo, este enfoque parece estar evolucionando. Dado que los avances esperados quizás no se materializan tan rápidamente como se esperaba, el manual actual implica comercializar agresivamente los modelos existentes para aplicaciones específicas, a menudo con afirmaciones ambiciosas. Por ejemplo, las empresas han afirmado cada vez más que sus modelos de IA pueden reemplazar a los codificadores humanos, a pesar de la evidencia temprana que sugiere lo contrario. Este giro implica que, en el futuro previsible, los grandes modelos de lenguaje solo verán mejoras marginales en sus capacidades centrales, lo que obligará a las empresas de IA a maximizar la utilidad de sus ofertas actuales.

En ningún lugar es más evidente este cambio estratégico que en el explícito aliento de OpenAI a los usuarios para que aprovechen GPT-5 para obtener consejos de salud, un dominio particularmente delicado y sensible. Inicialmente, OpenAI evitó en gran medida las consultas médicas, con ChatGPT a menudo proporcionando extensas exenciones de responsabilidad sobre su falta de experiencia médica y, a veces, negándose por completo a responder preguntas relacionadas con la salud. Sin embargo, los informes indican que estas exenciones de responsabilidad comenzaron a desaparecer con las versiones posteriores del modelo. Los modelos de OpenAI ahora pueden interpretar radiografías y mamografías, e incluso plantear preguntas de seguimiento diseñadas para guiar a los usuarios hacia un diagnóstico.

Este impulso deliberado hacia la atención médica se consolidó en mayo con el anuncio de HealthBench, un sistema diseñado para evaluar la competencia de la IA en temas de salud frente a las opiniones de profesionales médicos. A esto le siguió un estudio de julio, coautorizado por OpenAI, que informó que un grupo de médicos kenianos cometió menos errores de diagnóstico cuando fueron asistidos por un modelo de IA. El lanzamiento de GPT-5 cimentó aún más esta trayectoria, con Altman presentando a un empleado de OpenAI, Felipe Millon, y su esposa, Carolina Millon, a quien recientemente se le habían diagnosticado múltiples formas de cáncer. Carolina compartió su experiencia usando ChatGPT para traducir jerga médica compleja de los resultados de biopsias y para ayudar en decisiones, como si buscar terapia de radiación. El trío presentó esto como un ejemplo empoderador para cerrar la brecha de conocimiento entre pacientes y médicos.

Sin embargo, este cambio de enfoque sumerge a OpenAI en un territorio peligroso. La compañía parece estar extrapolando de la evidencia de que la IA puede servir como una herramienta clínica beneficiosa para médicos capacitados, para sugerir que las personas sin antecedentes médicos deben buscar consejos de salud personales directamente de los modelos de IA. Una preocupación significativa es que muchos usuarios podrían seguir tales consejos sin consultar nunca a un médico, especialmente ahora que el chatbot rara vez les pide que lo hagan. Una clara ilustración de este riesgo surgió solo dos días antes del lanzamiento de GPT-5, cuando los Annals of Internal Medicine publicaron un estudio de caso que detallaba a un hombre que desarrolló una intoxicación grave por bromuro, una afección en gran parte erradicada en los EE. UU. desde la década de 1970, después de dejar de consumir sal e ingerir cantidades peligrosas de bromuro tras una conversación con ChatGPT. Casi muere, pasando semanas hospitalizado.

En esencia, esta situación plantea cuestiones críticas de rendición de cuentas. Cuando las empresas de IA pasan de prometer inteligencia general abstracta a ofrecer una ayuda similar a la humana en campos especializados como la atención médica, la cuestión de la responsabilidad por los errores se vuelve primordial y en gran medida sin resolver. Como señala Damien Williams, profesor asistente de ciencia de datos y filosofía en la Universidad de Carolina del Norte en Charlotte, “Cuando los médicos te dan consejos médicos dañinos debido a un error o un sesgo perjudicial, puedes demandarlos por negligencia y obtener una compensa.” Él contrasta esto nítidamente con la IA: “Cuando ChatGPT te da consejos médicos dañinos porque ha sido entrenado con datos perjudiciales, o porque las ‘hallucinations’ son inherentes a las operaciones del sistema, ¿cuál es tu recurso?” El panorama actual ofrece poca indicación de que las empresas tecnológicas serán consideradas responsables por el daño que sus modelos de IA puedan causar.