AI革新植物标本数据获取:解锁百年植物学宝藏

Theconversation

几个世纪以来,全球各地的植物标本馆都一丝不苟地保存着地球植物和真菌生命的独特编年史。从1770年约瑟夫·班克斯和丹尼尔·索兰德在库克船长的“奋进号”在大堡礁修复后不久采集的Epaltes australis标本,到墨尔本大学收藏的17万份标本,这些藏品总计包含超过3.95亿份不可替代的记录。这个庞大的植物学档案在理解生物多样性、进化和气候变化方面蕴藏着巨大的潜力,然而,获取其全部丰富信息长期以来一直是一个艰巨的挑战。

主要障碍在于将这些实物藏品数字化。尽管世界各地的机构都在努力以高分辨率拍摄每个标本,并将其标签信息转换为可搜索的数字数据,但这项任务的巨大规模令人望而却步。一旦数字化,这些记录就会汇入全球平台,如澳大拉西亚虚拟植物标本馆和全球生物多样性信息机构,使数世纪的植物学知识可供世界各地的研究人员查阅。然而,即使是大型植物标本馆,例如新南威尔士国家植物标本馆,尽管使用了高容量传送带系统,也花费了三年多时间才数字化了115万份标本。对于缺乏工业规模设备的小型机构来说,这个过程要慢得多,它们依赖工作人员、志愿者和公民科学家来费力地拍摄并手动转录标签。按照目前的速度,许多藏品将在几十年内仍未数字化,从而锁定了生态学、进化、气候科学和保护领域研究人员急需的关键生物多样性数据。

为了克服这一瓶颈,一项新的研究引入了Hespi,这是一款开源、AI驱动的工具,旨在彻底改变植物标本数据访问方式。Hespi是“植物标本页处理流程”的简称,它将先进的计算机视觉与人工智能相结合,包括目标检测、图像分类和复杂的语言模型。该过程从标本页的高分辨率图像开始,图像通常包括压制植物和识别文本。Hespi随后利用光学字符识别技术读取印刷文本,并利用手写文本识别技术破译手写笔记——这项任务对人类来说也颇具挑战。为了进一步提高准确性,提取的文本会由先进的AI模型(如OpenAI的GPT-4o)进行处理,该模型能够纠正错误并显著提高数字输出的质量。

在短短几秒钟内,Hespi即可在标本页上定位主要标本标签,并提取重要信息,包括分类名称、采集者详细信息、地理位置、经纬度坐标以及采集日期。这些数据随后被转换为数字格式,可立即用于研究。例如,Hespi准确处理了1883年在圣基尔达采集的一份大型褐藻标本,识别出所有关键细节。对墨尔本大学植物标本馆和其他全球藏品中数千张标本图像进行的广泛测试表明,Hespi具有高度准确性,与手动数据提取相比,有望节省大量时间。未来的发展包括一个用户友好的图形界面,以便策展人审查和更正结果。

Hespi等AI系统的影响远不止简单的数字化。植物标本馆通过物种识别、分类学、生态监测、保护工作、教育乃至法医调查,已经为社会做出了巨大贡献。通过调动大量与标本相关的数据,AI能够以空前的规模实现创新应用。例如,AI已被用于从数字化标本中自动提取详细的叶片测量值和其他特征,使数世纪的历史藏品可用于快速研究植物进化和生态。这仅仅是开始,因为计算机视觉和AI有望以无数种方式进一步加速和扩展植物学研究。

像Hespi这样的AI管道的潜力超越了植物标本馆,适用于任何拥有高质量数字图像的博物馆或档案藏品。与维多利亚博物馆的一项新合作旨在将Hespi应用于博物馆藏品,首先是数字化该博物馆具有全球重要意义的笔石化石藏品中约12,500份标本。此外,与澳大利亚研究数据共享中心(ARDC)的一个项目正在进行中,旨在使该软件更加灵活,允许不同机构的策展人定制Hespi,以从各种藏品中提取数据,而不仅仅是植物标本。正如AI正在重塑日常生活的许多方面一样,这些技术也将改变生物多样性数据的获取方式,促进人机协作,以克服缓慢、手动转录的重大瓶颈。调动全球植物标本馆、博物馆和档案馆中锁定的信息,对于理解和应对日益恶化的生物多样性危机所需的跨学科研究至关重要。