El fracaso histórico de la IA: ¿Por qué los historiadores no serán reemplazados?

Gizmodo

Las recientes discusiones sobre inteligencia artificial a menudo sugieren que la IA pronto aumentará, si no reemplazará por completo, los trabajos humanos. Un estudio reciente de Microsoft, por ejemplo, clasificó provocativamente a los historiadores en segundo lugar entre las profesiones con mayor probabilidad de ser mejoradas por la IA. Esta proyección, comprensiblemente, generó preocupación en la comunidad histórica. Sin embargo, después de realizar pruebas personales exhaustivas de las principales herramientas de IA generativa con hechos históricos específicos, queda claro que los historiadores no deben temer una obsolescencia inmediata. Actualmente, la IA está lejos de ser capaz de realizar su complejo trabajo de manera efectiva.

Mi fascinación por las películas que los presidentes de EE. UU. han visto mientras estaban en el cargo se convirtió en el banco de pruebas ideal para estos sistemas de IA. Desde 2012, he investigado meticulosamente este nicho, desde la proyección del documental de aves de Teddy Roosevelt en 1908 hasta administraciones más recientes. Mi viaje comenzó con el descubrimiento de la lista de películas de Ronald Reagan en la Casa Blanca, lo que me llevó a una solicitud de la Ley de Libertad de Información (FOIA) sobre los hábitos de visualización de Barack Obama; una solicitud que reveló que los registros presidenciales están exentos de la FOIA hasta cinco años después de que un presidente deje el cargo. Sin desanimarme, desde entonces he profundizado en una vasta gama de fuentes, compilando una base de datos histórica detallada, aunque inusual. Probar la IA con información que conozco íntimamente me permitió evaluar su precisión, un paso crucial que a menudo pasan por alto los usuarios que suelen consultar estas herramientas sobre temas que no conocen. Los resultados fueron bastante reveladores para cualquiera que dependa de los chatbots de IA para obtener información precisa.

Mis intentos iniciales involucraron los modelos insignia de OpenAI, incluido lo que se presentó como GPT-5, preguntando sobre películas específicas vistas por presidentes como Woodrow Wilson, Dwight Eisenhower, Richard Nixon y los dos George Bush en fechas particulares. Las respuestas de OpenAI fueron consistentemente inútiles, a menudo afirmando que no se podían encontrar registros o, en algunos casos, fabricando información. Aunque afortunadamente no fabricaron información directamente, los modelos no lograron responder incluso a preguntas relativamente sencillas. Esta falta de transparencia sobre qué modelo estaba operando entre bastidores, junto con una incapacidad general para proporcionar detalles históricos precisos, destacó una debilidad significativa, a pesar de las promesas anteriores del CEO Sam Altman de capacidades de “experto a nivel de doctorado”.

Las deficiencias no se limitaron a OpenAI. Otros chatbots de IA importantes, incluidos Google Gemini, Microsoft Copilot, Perplexity y Grok de xAI, también demostraron considerables imprecisiones. Por ejemplo, cuando se le preguntó qué película vio el presidente Eisenhower el 11 de agosto de 1954, la “Respuesta Rápida” de Copilot sugirió incorrectamente Los Inconquistables, un documental en el que Eisenhower aparece brevemente. Al cambiar al modo “Investigación Profunda” de Copilot, se obtuvo un extenso informe de 3.500 palabras que especulaba que Eisenhower “probablemente” vio De repente, una película que no se estrenó hasta meses después de la fecha consultada. El “análisis” de Copilot citó “evidencia circunstancial y secundaria”, una frase que, en este contexto, equivalía a pura conjetura, dado que la respuesta correcta —Río sin retorno, confirmada por el libro de registro de un proyeccionista de la Casa Blanca— fue completamente omitida. Gemini no ofreció respuesta, mientras que Perplexity también adivinó incorrectamente De repente, aparentemente engañada por un dato curioso sobre la inspiración de la película.

Patrones de error similares surgieron con otras consultas presidenciales. Cuando se le preguntó sobre los hábitos de visualización de Richard Nixon el 12 de febrero de 1971, la “Respuesta Rápida” de Copilot afirmó que vio Patton en Key Biscayne, citando un enlace de los Archivos Nacionales que, al ser inspeccionado, no contenía dicha información. Aunque la “Investigación Profunda” de Copilot finalmente identificó correctamente La Gran Persecución, simultáneamente introdujo nuevas y falsas afirmaciones sobre Nixon viendo Patton en otras fechas. Perplexity sugirió incorrectamente El bueno, el feo y el malo, confundiendo la fecha con una visualización de un año después.

Los desafíos se intensificaron con hechos más oscuros. Por ejemplo, Woodrow Wilson vio La Crisis el 6 de marzo de 1917, una película muda que yo mismo obtuve y subí en línea porque carecía de disponibilidad pública. La mayoría de los modelos de IA se quedaron en blanco o sugirieron incorrectamente El nacimiento de una nación, la proyección más famosa de Wilson en la Casa Blanca, pero mucho más temprana. ChatGPT incluso afirmó falsamente que El nacimiento de una nación fue la primera película proyectada en la Casa Blanca, ignorando proyecciones anteriores de Taft y Teddy Roosevelt.

Incluso cuando una IA lograba proporcionar la respuesta correcta, su razonamiento o sus fuentes a menudo levantaban sospechas. Grok de xAI, por ejemplo, finalmente identificó correctamente Río sin retorno de Eisenhower después de ser incitado a “pensar más a fondo”, pero su fuente era mi propia cuenta oscura de Twitter, careciendo de una citación directa. Esto resalta la dependencia de Grok de datos de internet fácilmente disponibles, a menudo no verificados. De manera similar, cuando Grok identificó correctamente la visualización de George W. Bush del cortometraje documental Torres Gemelas el 10 de septiembre de 2003, citó documentos de la FOIA que yo había solicitado previamente, sintetizando efectivamente mi propia investigación anterior en lugar de realizar una nueva consulta.

Estas pruebas, aunque no científicas en el sentido académico, fueron diseñadas para evaluar la utilidad práctica de la IA para una investigación histórica precisa. Revelan que, si bien las empresas de IA presumen de una mejor capacidad de razonamiento y una reducción de las “alucinaciones”, el rendimiento en el mundo real para información específica y matizada sigue siendo profundamente defectuoso. Las herramientas de IA generativa se comercializan como motores de conocimiento de propósito general, un “gran desafío” que sistemáticamente no cumplen cuando se enfrentan a información que no está ampliamente digitalizada o que no se sintetiza fácilmente de fuentes comunes de internet.

El papel de un historiador va mucho más allá de simplemente compilar hechos publicados. La verdadera investigación histórica implica desenterrar documentos difíciles de encontrar en archivos, realizar entrevistas con testigos primarios o expertos, evaluar críticamente fuentes contradictorias y, en última instancia, contribuir con nuevas interpretaciones y comprensión del pasado. Mis pruebas, centradas únicamente en fechas y títulos de películas específicos, representan solo una fracción mínima de lo que hace un historiador.

Si bien las herramientas de IA son indudablemente útiles para innumerables tareas, es crucial atenuar la creencia generalizada en su omnipotencia. Desafiar periódicamente estas herramientas “similares a dioses” con hechos que uno conoce íntimamente sirve como un recordatorio vital de sus limitaciones. La dependencia excesiva de la IA sin una supervisión humana crítica no solo corre el riesgo de promover la ignorancia, sino también de socavar la propia búsqueda del conocimiento preciso.