La IA Revoluciona el Acceso a Datos Botánicos de Herbolarios

Theconversation

Durante siglos, los herbarios de todo el mundo han preservado meticulosamente una crónica única de la vida vegetal y fúngica de la Tierra. Desde un espécimen de Epaltes australis recolectado por Joseph Banks y Daniel Solander en 1770, justo después de que el Endeavour del Capitán Cook fuera reparado en la Gran Barrera de Coral, hasta los 170.000 especímenes alojados en la Universidad de Melbourne, estas colecciones contienen colectivamente más de 395 millones de registros irremplazables. Este vasto archivo botánico tiene un inmenso potencial para comprender la biodiversidad, la evolución y el cambio climático, sin embargo, acceder a toda su riqueza de información ha sido durante mucho tiempo un desafío formidable.

El principal obstáculo reside en la digitalización de estas colecciones físicas. Si bien las instituciones de todo el mundo se esfuerzan por fotografiar cada espécimen en alta resolución y convertir la información de su etiqueta en datos digitales buscables, la magnitud de la tarea es desalentadora. Una vez digitalizados, estos registros se incorporan a plataformas globales como el Herbario Virtual de Australasia y el Global Biodiversity Information Facility, haciendo que siglos de conocimiento botánico sean accesibles para investigadores de todo el mundo. Sin embargo, incluso grandes herbarios, como el Herbario Nacional de Nueva Gales del Sur, que utilizaba sistemas de cinta transportadora de alta capacidad, tardaron más de tres años en digitalizar 1,15 millones de especímenes. Para las instituciones más pequeñas que carecen de configuraciones a escala industrial, el proceso es mucho más lento, dependiendo del personal, voluntarios y científicos ciudadanos que fotografían y transcriben manualmente las etiquetas con gran esmero. Al ritmo actual, muchas colecciones permanecerán sin digitalizar durante décadas, manteniendo bajo llave datos críticos de biodiversidad que los investigadores en ecología, evolución, ciencia climática y conservación necesitan urgentemente.

Para superar este cuello de botella, una nueva investigación ha presentado Hespi, una herramienta de código abierto impulsada por IA diseñada para revolucionar el acceso a los datos de herbario. Abreviatura de “herbarium specimen sheet pipeline” (pipeline de hojas de especímenes de herbario), Hespi integra visión por computadora avanzada con inteligencia artificial, incluyendo detección de objetos, clasificación de imágenes y modelos de lenguaje sofisticados. El proceso comienza con una imagen de alta resolución de una hoja de espécimen, que típicamente incluye la planta prensada y el texto de identificación. Hespi luego emplea el reconocimiento óptico de caracteres para leer texto impreso y el reconocimiento de texto manuscrito para descifrar notas escritas a mano, una tarea desafiante incluso para los humanos. Para mejorar aún más la precisión, el texto extraído es procesado por un modelo de IA avanzado, como GPT-4o de OpenAI, que corrige errores y mejora significativamente la calidad de la salida digital.

En cuestión de segundos, Hespi puede localizar la etiqueta principal del espécimen en una hoja y extraer información vital, incluidos nombres taxonómicos, detalles del recolector, ubicación geográfica, coordenadas de latitud y longitud, y fechas de recolección. Estos datos se convierten luego a un formato digital, listos para su uso inmediato en la investigación. Por ejemplo, Hespi procesó con precisión un gran espécimen de alga parda recolectado en St Kilda en 1883, identificando todos los detalles clave. Pruebas exhaustivas en miles de imágenes de especímenes del Herbario de la Universidad de Melbourne y otras colecciones globales han demostrado el alto grado de precisión de Hespi, lo que promete un ahorro de tiempo sustancial en comparación con la extracción manual de datos. Los desarrollos futuros incluyen una interfaz gráfica fácil de usar para permitir a los curadores revisar y corregir los resultados.

El impacto de los sistemas de IA como Hespi se extiende mucho más allá de la simple digitalización. Los herbarios ya contribuyen inmensamente a la sociedad a través de la identificación de especies, la taxonomía, el monitoreo ecológico, los esfuerzos de conservación, la educación e incluso las investigaciones forenses. Al movilizar grandes volúmenes de datos asociados a los especímenes, la IA permite aplicaciones innovadoras a una escala sin precedentes. Por ejemplo, la IA se ha utilizado para extraer automáticamente mediciones detalladas de hojas y otros rasgos de especímenes digitalizados, haciendo que siglos de colecciones históricas estén disponibles para una investigación rápida sobre la evolución y ecología de las plantas. Esto es solo el principio, ya que la visión por computadora y la IA están preparadas para acelerar y expandir aún más la investigación botánica de innumerables maneras.

El potencial de las pipelines de IA como Hespi va más allá de los herbarios y se extiende a cualquier colección de museo o archivo con imágenes digitales de alta calidad. Una nueva colaboración con Museums Victoria tiene como objetivo adaptar Hespi para colecciones de museos, comenzando con la digitalización de aproximadamente 12.500 especímenes de la colección de graptolitos fósiles de importancia mundial del museo. Además, un proyecto con el Australian Research Data Commons (ARDC) está en marcha para hacer el software aún más flexible, permitiendo a los curadores de varias instituciones personalizar Hespi para extraer datos de diversas colecciones, no solo de especímenes de plantas. Así como la IA está remodelando muchos aspectos de la vida diaria, estas tecnologías están destinadas a transformar el acceso a los datos de biodiversidad, facilitando las colaboraciones entre humanos e IA para superar el significativo cuello de botella de la transcripción manual lenta. Movilizar la información encerrada en herbarios, museos y archivos de todo el mundo es fundamental para la investigación interdisciplinaria necesaria para comprender y abordar la creciente crisis de la biodiversidad.