L'IA Révolutionne l'Accès aux Données Botaniques des Herbiers

Theconversation

Pendant des siècles, les herbiers du monde entier ont méticuleusement préservé une chronique unique de la vie végétale et fongique de la Terre. D’un spécimen d’Epaltes australis collecté par Joseph Banks et Daniel Solander en 1770, juste après la réparation de l’Endeavour du Capitaine Cook sur la Grande Barrière de Corail, aux 170 000 spécimens conservés à l’Université de Melbourne, ces collections contiennent collectivement plus de 395 millions de registres irremplaçables. Cette vaste archive botanique recèle un immense potentiel pour la compréhension de la biodiversité, de l’évolution et du changement climatique, mais l’accès à toute sa richesse d’informations a longtemps été un défi redoutable.

Le principal obstacle réside dans la numérisation de ces collections physiques. Bien que les institutions du monde entier s’efforcent de photographier chaque spécimen en haute résolution et de convertir les informations de son étiquette en données numériques interrogeables, l’ampleur de la tâche est décourageante. Une fois numérisés, ces registres alimentent des plateformes mondiales comme l’Herbier Virtuel d’Australasie et le Global Biodiversity Information Facility, rendant des siècles de connaissances botaniques accessibles aux chercheurs du monde entier. Cependant, même les grands herbiers, tels que l’Herbier National de Nouvelle-Galles du Sud, qui utilisaient des systèmes de convoyeurs à haute capacité, ont mis plus de trois ans pour numériser 1,15 million de spécimens. Pour les petites institutions dépourvues d’installations à l’échelle industrielle, le processus est beaucoup plus lent, reposant sur le personnel, les bénévoles et les citoyens scientifiques qui photographient et transcrivent manuellement les étiquettes avec minutie. Au rythme actuel, de nombreuses collections resteront non numérisées pendant des décennies, bloquant des données cruciales sur la biodiversité dont les chercheurs en écologie, évolution, sciences du climat et conservation ont un besoin urgent.

Pour surmonter ce goulot d’étranglement, une nouvelle recherche a introduit Hespi, un outil open-source basé sur l’IA conçu pour révolutionner l’accès aux données d’herbier. Abréviation de “herbarium specimen sheet pipeline”, Hespi intègre une vision par ordinateur avancée avec l’intelligence artificielle, y compris la détection d’objets, la classification d’images et des modèles de langage sophistiqués. Le processus commence par une image haute résolution d’une feuille de spécimen, qui comprend généralement la plante pressée et le texte d’identification. Hespi utilise ensuite la reconnaissance optique de caractères pour lire le texte imprimé et la reconnaissance de l’écriture manuscrite pour déchiffrer les notes manuscrites – une tâche difficile même pour les humains. Pour améliorer encore la précision, le texte extrait est traité par un modèle d’IA avancé, tel que GPT-4o d’OpenAI, qui corrige les erreurs et améliore considérablement la qualité de la sortie numérique.

En quelques secondes, Hespi peut localiser l’étiquette principale du spécimen sur une feuille et en extraire des informations vitales, y compris les noms taxonomiques, les détails du collecteur, la localisation géographique, les coordonnées de latitude et de longitude, et les dates de collecte. Ces données sont ensuite converties en format numérique, prêtes à être utilisées immédiatement dans la recherche. Par exemple, Hespi a traité avec précision un grand spécimen d’algue brune collecté à St Kilda en 1883, identifiant tous les détails clés. Des tests approfondis sur des milliers d’images de spécimens de l’Herbier de l’Université de Melbourne et d’autres collections mondiales ont démontré le haut degré de précision de Hespi, promettant des économies de temps substantielles par rapport à l’extraction manuelle des données. Les développements futurs incluent une interface graphique conviviale pour permettre aux conservateurs de réviser et de corriger les résultats.

L’impact des systèmes d’IA comme Hespi s’étend bien au-delà de la simple numérisation. Les herbiers contribuent déjà immensément à la société par l’identification des espèces, la taxonomie, la surveillance écologique, les efforts de conservation, l’éducation, et même les enquêtes médico-légales. En mobilisant de vastes volumes de données associées aux spécimens, l’IA permet des applications innovantes à une échelle sans précédent. Par exemple, l’IA a été utilisée pour extraire automatiquement des mesures détaillées de feuilles et d’autres traits à partir de spécimens numérisés, rendant des siècles de collections historiques disponibles pour une recherche rapide sur l’évolution et l’écologie des plantes. Ce n’est que le début, car la vision par ordinateur et l’IA sont sur le point d’accélérer et d’étendre davantage la recherche botanique de multiples façons.

Le potentiel des pipelines d’IA comme Hespi s’étend au-delà des herbiers à toute collection de musée ou d’archives disposant d’images numériques de haute qualité. Une nouvelle collaboration avec Museums Victoria vise à adapter Hespi pour les collections de musées, en commençant par la numérisation d’environ 12 500 spécimens de la collection de graptolites fossiles d’importance mondiale du musée. De plus, un projet avec l’Australian Research Data Commons (ARDC) est en cours pour rendre le logiciel encore plus flexible, permettant aux conservateurs de diverses institutions de personnaliser Hespi pour extraire des données de diverses collections, et pas seulement des spécimens végétaux. Tout comme l’IA remodèle de nombreux aspects de la vie quotidienne, ces technologies sont prêtes à transformer l’accès aux données de biodiversité, facilitant les collaborations humain-IA pour surmonter le goulot d’étranglement significatif de la transcription manuelle lente. La mobilisation des informations enfermées dans les herbiers, les musées et les archives du monde entier est essentielle pour la recherche interdisciplinaire nécessaire à la compréhension et à la résolution de la crise croissante de la biodiversité.