KI revolutioniert Zugang zu Herbariumdaten
Seit Jahrhunderten bewahren Herbarien auf der ganzen Welt akribisch eine einzigartige Chronik des Pflanzen- und Pilzlebens der Erde. Von einem Exemplar von Epaltes australis, das 1770 von Joseph Banks und Daniel Solander gesammelt wurde, kurz nachdem Captain Cooks Endeavour am Great Barrier Reef repariert worden war, bis zu den 170.000 Exemplaren, die an der University of Melbourne aufbewahrt werden, enthalten diese Sammlungen zusammen über 395 Millionen unersetzliche Aufzeichnungen. Dieses riesige botanische Archiv birgt ein immenses Potenzial für das Verständnis von Biodiversität, Evolution und Klimawandel, doch der Zugriff auf seinen gesamten Informationsreichtum war lange Zeit eine gewaltige Herausforderung.
Das Haupthindernis liegt in der Digitalisierung dieser physischen Sammlungen. Während Institutionen weltweit bestrebt sind, jedes Exemplar in hoher Auflösung zu fotografieren und seine Etiketteninformationen in durchsuchbare digitale Daten umzuwandeln, ist das schiere Ausmaß der Aufgabe entmutigend. Nach der Digitalisierung fließen diese Aufzeichnungen in globale Plattformen wie das Australasian Virtual Herbarium und die Global Biodiversity Information Facility ein und machen so jahrhundertealtes botanisches Wissen Forschenden überall zugänglich. Doch selbst große Herbarien, wie das National Herbarium of New South Wales, das Hochleistungs-Förderbandsysteme einsetzte, benötigten über drei Jahre, um 1,15 Millionen Exemplare zu digitalisieren. Für kleinere Institutionen, denen industrielle Anlagen fehlen, ist der Prozess wesentlich langsamer und hängt von Personal, Freiwilligen und Bürgerwissenschaftlern ab, die Etiketten mühsam fotografieren und manuell transkribieren. Im aktuellen Tempo werden viele Sammlungen noch Jahrzehnte lang undigitalisiert bleiben, wodurch kritische Biodiversitätsdaten, die von Forschenden in Ökologie, Evolution, Klimawissenschaft und Naturschutz dringend benötigt werden, unzugänglich bleiben.
Um diesen Engpass zu überwinden, wurde in einer neuen Forschungsarbeit Hespi vorgestellt, ein quelloffenes, KI-gesteuertes Tool, das den Zugang zu Herbariumsdaten revolutionieren soll. Hespi, kurz für „herbarium specimen sheet pipeline“, integriert fortschrittliche Computer Vision mit künstlicher Intelligenz, einschließlich Objekterkennung, Bildklassifizierung und ausgeklügelten Sprachmodellen. Der Prozess beginnt mit einem hochauflösenden Bild eines Herbarbogens, das typischerweise die gepresste Pflanze und identifizierenden Text enthält. Hespi verwendet dann optische Zeichenerkennung, um gedruckten Text zu lesen, und handschriftliche Texterkennung, um handschriftliche Notizen zu entschlüsseln – eine Aufgabe, die selbst für Menschen eine Herausforderung darstellt. Um die Genauigkeit weiter zu verbessern, wird der extrahierte Text von einem fortschrittlichen KI-Modell wie OpenAI’s GPT-4o verarbeitet, das Fehler korrigiert und die Qualität der digitalen Ausgabe erheblich verbessert.
In nur wenigen Sekunden kann Hespi das Hauptetikett eines Exemplars auf einem Bogen lokalisieren und wichtige Informationen extrahieren, darunter taxonomische Namen, Sammlerdetails, geografische Lage, Breiten- und Längengrade sowie Sammlungsdaten. Diese Daten werden dann in ein digitales Format umgewandelt und stehen sofort für die Forschung zur Verfügung. Zum Beispiel verarbeitete Hespi präzise ein großes Braunalgenexemplar, das 1883 in St Kilda gesammelt wurde, und identifizierte alle wichtigen Details. Umfangreiche Tests an Tausenden von Exemplarbildern aus dem Herbarium der University of Melbourne und anderen globalen Sammlungen haben die hohe Genauigkeit von Hespi demonstriert und versprechen erhebliche Zeitersparnisse im Vergleich zur manuellen Datenextraktion. Zukünftige Entwicklungen umfassen eine benutzerfreundliche grafische Oberfläche, die es Kuratoren ermöglicht, Ergebnisse zu überprüfen und zu korrigieren.
Die Auswirkungen von KI-Systemen wie Hespi gehen weit über die einfache Digitalisierung hinaus. Herbarien leisten bereits einen immensen Beitrag zur Gesellschaft durch Artenidentifikation, Taxonomie, ökologische Überwachung, Naturschutzbemühungen, Bildung und sogar forensische Untersuchungen. Durch die Mobilisierung großer Mengen exemplarbezogener Daten ermöglicht KI innovative Anwendungen in einem beispiellosen Maßstab. Zum Beispiel wurde KI verwendet, um detaillierte Blattmessungen und andere Merkmale automatisch aus digitalisierten Exemplaren zu extrahieren, wodurch jahrhundertealte historische Sammlungen für die schnelle Forschung zur Pflanzenentwicklung und -ökologie verfügbar gemacht wurden. Dies ist nur der Anfang, da Computer Vision und KI bereit sind, die botanische Forschung auf unzählige Weisen weiter zu beschleunigen und zu erweitern.
Das Potenzial von KI-Pipelines wie Hespi reicht über Herbarien hinaus zu jeder Museums- oder Archivsammlung mit hochwertigen digitalen Bildern. Eine neue Zusammenarbeit mit Museums Victoria zielt darauf ab, Hespi für Museumssammlungen anzupassen, beginnend mit der Digitalisierung von etwa 12.500 Exemplaren aus der weltweit bedeutenden fossilen Graptolithen-Sammlung des Museums. Darüber hinaus läuft ein Projekt mit dem Australian Research Data Commons (ARDC), um die Software noch flexibler zu gestalten, sodass Kuratoren in verschiedenen Institutionen Hespi anpassen können, um Daten aus verschiedenen Sammlungen zu extrahieren, nicht nur aus Pflanzenexemplaren. So wie KI viele Aspekte des täglichen Lebens neu gestaltet, werden diese Technologien den Zugang zu Biodiversitätsdaten transformieren und die Zusammenarbeit zwischen Mensch und KI erleichtern, um den erheblichen Engpass der langsamen, manuellen Transkription zu überwinden. Die Mobilisierung der in Herbarien, Museen und Archiven weltweit eingeschlossenen Informationen ist entscheidend für die interdisziplinäre Forschung, die zur Bewältigung der eskalierenden Biodiversitätskrise erforderlich ist.