AIが植物標本データアクセスを革新:植物学の知を解放

Theconversation

何世紀もの間、世界中の植物標本館は、地球の植物と菌類の生命に関するユニークな記録を細心の注意を払って保存してきました。1770年にジョゼフ・バンクスとダニエル・ソランダーが、キャプテン・クックのエンデバー号がグレートバリアリーフで修理された直後に採集したEpaltes australisの標本から、メルボルン大学に収蔵されている17万点の標本に至るまで、これらのコレクションは合計で3億9500万点を超えるかけがえのない記録を含んでいます。この広大な植物学のアーカイブは、生物多様性、進化、気候変動を理解するための計り知れない可能性を秘めていますが、その情報 богатをすべて利用することは長らく困難な課題でした。

主な障害は、これらの物理的なコレクションをデジタル化することにあります。世界中の機関が高解像度で各標本を撮影し、そのラベル情報を検索可能なデジタルデータに変換しようと努力していますが、その作業の規模は圧倒的です。デジタル化された記録は、オーストラリア仮想植物標本館や地球規模生物多様性情報施設のようなグローバルプラットフォームに供給され、何世紀にもわたる植物学の知識を世界中の研究者が利用できるようにしています。しかし、ニューサウスウェールズ州立植物標本館のような大規模な標本館でさえ、高容量のコンベアベルトシステムを利用していても、115万点の標本をデジタル化するのに3年以上かかりました。産業規模の設備を持たない小規模な機関では、そのプロセスははるかに遅く、スタッフ、ボランティア、市民科学者が painstaking にラベルを撮影し、手動で転写することに依存しています。現在のペースでは、多くのコレクションは何十年もデジタル化されずに残り、生態学、進化、気候科学、保全の研究者が緊急に必要としている重要な生物多様性データが閉じ込められたままになります。

このボトルネックを克服するため、新たな研究によってHespiが導入されました。これは、植物標本データへのアクセスを革新するために設計された、オープンソースのAI駆動型ツールです。「植物標本シートパイプライン」の略であるHespiは、物体検出、画像分類、高度な言語モデルを含む、先進的なコンピュータービジョンと人工知能を統合しています。プロセスは、通常、押し花と識別テキストを含む標本シートの高解像度画像から始まります。次にHespiは、光学文字認識を使用して印刷されたテキストを読み取り、手書き文字認識を使用して手書きのメモを解読します。これは人間にとっても困難な作業です。精度をさらに高めるため、抽出されたテキストは、OpenAIのGPT-4oのような高度なAIモデルによって処理され、エラーを修正し、デジタル出力の品質を大幅に向上させます。

わずか数秒で、Hespiはシート上の主要な標本ラベルを特定し、分類名、採集者情報、地理的位置、緯度経度座標、採集日などの重要な情報を抽出できます。このデータはその後デジタル形式に変換され、研究で即座に利用できるようになります。例えば、Hespiは1883年にセントキルダで採集された大型の褐藻標本を正確に処理し、すべての主要な詳細を特定しました。メルボルン大学植物標本館およびその他の世界のコレクションからの数千点の標本画像に対する広範なテストにより、Hespiの高い精度が実証されており、手動でのデータ抽出と比較して大幅な時間短縮が期待されます。今後の開発には、キュレーターが結果を確認し修正できるユーザーフレンドリーなグラフィカルインターフェースが含まれます。

HespiのようなAIシステムの影響は、単純なデジタル化をはるかに超えています。植物標本館は、種の特定、分類学、生態学的モニタリング、保全活動、教育、さらには法医学的調査を通じて、すでに社会に多大な貢献をしています。AIは、膨大な量の標本関連データを活用することで、前例のない規模での革新的なアプリケーションを可能にします。例えば、AIはデジタル化された標本から詳細な葉の測定値やその他の形質を自動的に抽出するために使用されており、何世紀にもわたる歴史的なコレクションを植物の進化と生態に関する迅速な研究に利用できるようになっています。これは始まりに過ぎず、コンピュータービジョンとAIは、数え切れないほどの方法で植物学研究をさらに加速し、拡大させる態勢が整っています。

HespiのようなAIパイプラインの可能性は、植物標本館を超えて、高品質なデジタル画像を持つあらゆる博物館やアーカイブコレクションに及びます。ビクトリア博物館との新たな協力により、博物館の世界的に重要な筆石化石コレクションから約12,500点の標本をデジタル化することから始め、Hespiを博物館コレクションに適応させることを目指しています。さらに、オーストラリア研究データコモンズ(ARDC)とのプロジェクトが進行中で、ソフトウェアをさらに柔軟にし、さまざまな機関のキュレーターがHespiをカスタマイズして、植物標本だけでなく多様なコレクションからデータを抽出できるようにします。AIが日常生活の多くの側面を再構築しているのと同様に、これらの技術は生物多様性データへのアクセスを変革し、人間とAIの協力を促進して、遅い手動転写という重大なボトルネックを克服することになるでしょう。世界中の植物標本館、博物館、アーカイブに閉じ込められた情報を活用することは、増大する生物多様性危機を理解し対処するために必要な学際的な研究にとって極めて重要です。