TPC25:科学分野におけるLLMの信頼性、スケール、評価を議論

Aiwire

最近開催されたTPC25会議では、2人の著名な人物が、科学研究における大規模言語モデル(LLM)の未来について、それぞれ異なるが補完し合うビジョンを提示しました。彼らの議論は、これらの強力なAIシステムに対する信頼を醸成しつつ、同時にその能力と展開を大規模化するという、重要な二重の課題を浮き彫りにしました。

アルゴンヌ国立研究所のフランク・カペロ氏は、AI研究アシスタントを厳密に評価するために設計された新しいフレームワークEAIRAを紹介しました。彼の中心的な焦点は、推論、適応性、およびドメイン固有の専門知識の測定基準を確立することでした。これらは、研究者が絶えず人間の監視を必要とせずに、複雑な科学タスクを自信を持ってLLMに委任するために不可欠です。カペロ氏は、単なる文献選別にとどまらず、仮説生成、コード記述、さらには実験設計と実行までを網羅するAI同僚への期待が高まっていることを強調しました。彼が指摘したのは、従来の科学機器とは異なり、内部動作が不透明な「ブラックボックス」システムを評価することの難しさです。多肢選択問題や自由記述応答などの現在の評価方法は、汎用性が高すぎたり、静的すぎたり、モデルトレーニングによるデータ汚染を受けやすかったりするため、しばしば不十分です。EAIRAは、事実想起評価(多肢選択問題)と高度な推論評価(自由記述応答)、制御されたラボ形式の実験、そして大規模な実世界フィールド実験を組み合わせた、包括的で進化する手法を提案し、多様な科学分野における複雑な研究者とLLMの相互作用を捉えることを目指しています。

日本からは、東京工業大学の横田理央教授が、日本の野心的な二本柱のLLM開発戦略について詳しく説明しました。LLM-jpコンソーシアムは、ABCIや富岳を含む日本で最も強力なスーパーコンピューターを使用して、大規模モデルを訓練する取り組みを主導しています。この大規模なイニシアティブは、広範な多言語データセットの構築、1720億パラメータに及ぶアーキテクチャの探索、そして世界的な競争力を維持するために数百万時間にわたる高性能GPU時間の投入を強調しています。横田教授は、このような規模のプロジェクトには綿密な調整と規律ある実験が必要であり、単一の不正確なパラメータ設定が数百万ドルの無駄な訓練コストにつながる可能性があると強調しました。LLM-jpの重要な側面は、迅速な知識共有へのコミットメントであり、参加大学、政府研究機関、企業パートナー全体に進捗が迅速に普及することを保証しています。

この大規模な取り組みを補完するのが、より小規模で俊敏なSwallowプロジェクトです。このイニシアティブは、効率的な訓練方法とより軽量なモデルアーキテクチャの開発に焦点を当てた、的を絞った実験に特化しています。Swallowは、Mixture of Experts(MoE)設計のような革新的な技術を探求しています。これは、特定の入力に対して専門化されたサブモデルの一部のみが活性化されることで、精度を維持しつつ計算コストを劇的に削減します。このプロジェクトは、大規模モデルでテストするにはコストが高すぎるリスクの高いアイデアの検証の場として機能し、Swallowから得られた教訓はほぼ即座に、より大規模なLLM-jpモデルにフィードバックされます。

カペロ氏と横田教授のプレゼンテーションの収束点は明確でした。LLMが科学においてその潜在能力を最大限に発揮するためには、信頼と規模が同時に進展しなければなりません。最も強力なモデルであっても、その出力が検証できなければ影響は限定的であり、最も厳格な評価方法であっても、複雑な実世界の問題に取り組む能力のあるシステムに適用されなければ価値を失います。科学AIの未来は、能力において野心的であり、かつ厳密かつ透明にテストされたモデルの開発にかかっています。