DeepMind libera Aeneas AI para analizar textos antiguos
Google DeepMind ha presentado Aeneas, un innovador modelo de IA generativa diseñado para ayudar a los historiadores a descifrar y comprender inscripciones antiguas. Lanzado como una herramienta de código abierto, Aeneas puede procesar entradas de texto e imagen, demostrando un salto significativo en su capacidad para restaurar caracteres faltantes en textos históricos dañados, superando a los modelos de vanguardia existentes.
Aeneas está específicamente diseñado para apoyar la epigrafía, el estudio especializado de inscripciones antiguas talladas en piedra, metal u otros materiales duraderos. El modelo agiliza varias tareas críticas para los historiadores: datar con precisión las inscripciones, identificar su origen geográfico, reconstruir textos parciales o fragmentados, y encontrar “paralelos” —otras inscripciones o textos que contienen palabras o frases similares. En su esencia, Aeneas aprovecha una sofisticada arquitectura de transformador multimodal, equipada con componentes especializados adaptados para cada una de estas funciones analíticas. Al ser comparado con los principales modelos de IA e incluso con expertos humanos en diversos desafíos epigráficos, Aeneas consistentemente entregó resultados superiores. Notablemente, cuando los historiadores humanos utilizaron Aeneas como herramienta colaborativa, su rendimiento combinado superó los esfuerzos solo humanos o solo de IA, subrayando el poder de la asociación humano-IA.
DeepMind concibe Aeneas como una herramienta flexible capaz de adaptarse a una amplia gama de lenguas, escrituras y medios antiguos, extendiendo su utilidad más allá de las inscripciones en piedra para incluir papiros y acuñaciones. Esta adaptabilidad tiene como objetivo facilitar las conexiones a través de un espectro más amplio de evidencia histórica y es parte de una iniciativa más grande para explorar cómo la IA generativa puede mejorar la identificación e interpretación de paralelos históricos a gran escala. Para asegurar que sus beneficios lleguen a una amplia audiencia, una versión interactiva de Aeneas se ha puesto a disposición gratuita de investigadores, estudiantes, educadores y profesionales de museos.
Aeneas representa una evolución significativa del proyecto anterior de DeepMind, Ithaca, un modelo solo de texto enfocado únicamente en la epigrafía griega antigua. Si bien Ithaca sentó las bases, Aeneas introduce avances cruciales, incluida la capacidad de entrada de imágenes, la capacidad de reconstruir inscripciones con un número desconocido de caracteres faltantes y la capacidad de generar directamente paralelos identificados, características ausentes en su predecesor.
Para entrenar a Aeneas, DeepMind compiló meticulosamente el Conjunto de Datos Epigráficos Latinos (LED), un extenso corpus que comprende 176,861 inscripciones. Este masivo conjunto de datos se creó a partir de materiales de origen existentes y luego empleando un complejo proceso para limpiar, estandarizar e integrar los registros en un formato unificado. Las inscripciones dentro del LED abarcan un vasto período histórico, desde el siglo VII a.C. hasta el siglo VIII d.C., y provienen de diversas regiones del mundo romano, extendiéndose desde Gran Bretaña hasta Mesopotamia.
Para validar la efectividad de Aeneas como instrumento de investigación, DeepMind realizó un estudio con 23 expertos en epigrafía. Estos especialistas utilizaron Aeneas en un entorno de investigación simulado del mundo real, con limitaciones de tiempo. El estudio reveló que, si bien los expertos humanos seleccionaban manualmente paralelos para las inscripciones, frecuentemente incorporaban al menos un paralelo adicional sugerido por Aeneas. Un investigador destacó el profundo impacto de la herramienta, afirmando que los paralelos recuperados por Aeneas cambiaron por completo su enfoque histórico, transformando una tarea que típicamente llevaría días en tan solo 15 minutos. Esta ganancia de eficiencia, señaló el investigador, liberaría una cantidad significativa de tiempo para un análisis más profundo y la formulación de preguntas de investigación.
Aunque Aeneas ofrece capacidades notables, las discusiones en torno al modelo también han resaltado complejidades inherentes a la investigación de la historia antigua. Algunos observadores señalan que, incluso con IA avanzada, las interpretaciones históricas a menudo implican “conjeturas informadas” basadas en información incompleta o parcialmente corrupta. Señalan que los datos históricos, incluso de períodos bien documentados, inherentemente presentan “problemas de calidad de datos” debido a los sesgos y perspectivas de los autores originales. Aeneas, por lo tanto, sirve como una poderosa ayuda para navegar estos desafíos, proporcionando ideas sólidas al tiempo que reconoce la naturaleza interpretativa de la investigación histórica. El código de Aeneas y una demostración interactiva son de acceso público para una mayor exploración y uso.