TPC25:科学対応AIへの道筋 – エクサスケール、量子、そして将来計画
TPC25会議は最近、最先端の人工知能を科学的発見のための実用的なツールに変革するという統一された目標を持つ主要な研究者たちを招集しました。週を通しての議論では、この野心的な取り組みにおける計り知れない可能性と、前途にある重大な障害の両方が強調されました。
生来の速度を超えて:科学対応AIの構築
理化学研究所(RIKEN)計算科学研究センター長の松岡聡氏は、今日の商用基盤モデルは科学アプリケーションにとって単なる出発点に過ぎないと強調しました。理研の科学のためのAIチームを代表して、松岡氏は、大規模言語モデルや学習モデルが科学研究に信頼性高く貢献する前に解決しなければならない、データ処理、モデル設計、ワークフローオーケストレーションにおける重要なギャップを詳細に説明しました。
理研はこのビジョンを支えるインフラストラクチャを積極的に構築しています。スーパーコンピュータ「富岳」は60,000のCPUノードで依然として世界をリードしていますが、同センターは、約1,500基のNvidia Blackwellアクセラレータと数百基の追加GPUおよびTPUを搭載した新しいGPUコンプレックスでその能力を拡張しています。理研はまた、3つの量子システムを運用しており、2029年までにゼタスケール計算(毎秒10^21操作)を達成すると期待される将来のシステムを計画しています。
松岡氏は、単に計算速度が速いだけでは不十分であると強調しました。科学AIモデルは、複雑な科学データとワークフローを本質的に理解する必要があります。汎用商用モデルとは異なり、物理学、化学、生物学における科学アプリケーションには特殊な機能が必要です。科学データは、テキスト、方程式、画像、センサーからのストリームを組み合わせることが多く、しばしばテラバイト規模に達します。現在のAIシステムは、ドメイン固有の記号、単位、非常に長いシーケンス、および超高解像度の科学画像に苦戦しています。これを克服するために、松岡氏は、カスタムトークン語彙、スパースアテンションメカニズム、および通常の限界をはるかに超えるコンテキストウィンドウを処理できる物理学を考慮したデコーダを提唱しました。
理研は、モデル効率とデータ理解を向上させるための実用的な方法を模索しており、これには高解像度画像のためのクアッドツリータイリングや空間充填曲線のような高度なデータ圧縮技術が含まれます。これらの方法は、精度を犠牲にすることなく大幅な計算コスト削減を提供しますが、新しいコンパイラとメモリのサポートが必要です。マルチモーダルデータについては、チームはニューラルネットワークと従来の偏微分方程式ソルバーを組み合わせたハイブリッド演算子を開発しています。松岡氏はまた、モノリシックな巨大モデルから、エキスパート混合アーキテクチャやファインチューニングされたドメインモデルを含む、より多様なタスクチューニングモデルへの移行を強調し、コスト削減と堅牢性向上を目的とした推論中の推論を重視しました。
生成型量子AIで発見を解き放つ
QuantinuumのAI責任者であるスティーブ・クラーク氏は、量子コンピューティングとAIが融合する際の変革の可能性を探りました。彼はQuantinuumの「生成型量子AI」戦略を、3つの相乗的なアプローチに焦点を当てて概説しました。
第一に、AIは量子コンピューティング自体の最適化に活用されています。深層強化学習などの機械学習技術は、量子回路のコンパイル、高価な量子ゲート数の削減、実際の量子ハードウェア上での最適な制御とエラー訂正の改善といった課題に応用されています。
第二に、クラークのチームは、量子システムがどのように全く新しい形態のAIに力を与えることができるかを調査しています。これには、ニューラルネットワークを量子ハードウェア上でネイティブに動作するように再設計し、重ね合わせのような量子特性を利用して情報を根本的に異なる方法で処理し、古典的な類似物を持たないモデルを作成することが含まれます。
第三に、この戦略には、量子コンピュータによって生成されたデータでAIモデルを訓練することが含まれます。これにより、AIは古典システムでは生成できないパターンを学習できます。例としては、生成型量子固有値ソルバーがあり、トランスフォーマーモデルが分子の基底状態を見つけるために量子回路を繰り返し提案します。この方法は化学、材料科学、最適化に応用可能です。
HPCにおけるAIの主流化、しかし課題は残る
Hyperion ResearchのCEOであるアール・C・ジョセフ氏は、AIの高性能計算(HPC)環境への急速な統合を強調する調査結果を発表しました。HPCにおけるAIの導入は、2020年の約3分の1のサイトから2024年には90%以上に急増し、実験段階を超えて、政府、学術界、産業界におけるシミュレーション強化や大規模データ分析などのタスクで主流の使用へと移行しています。
この成長は、クラウド導入の増加と密接に並行しており、組織は最先端のハードウェア、特にGPUの高コストと急速な陳腐化を軽減するためにクラウドサービスに目を向けています。クラウドは、最新世代のハードウェアへのアクセスとより大きな柔軟性を提供し、長期的なオンプレミス投資の必要性を減らします。
この拡大にもかかわらず、依然として重大な障壁が存在します。最も頻繁に挙げられる課題は、トレーニングデータの品質であり、これが多数のAIプロジェクトを停滞させています。ジョセフ氏は、メイヨークリニックを例に挙げ、小規模で高品質な言語モデルをトレーニングするために、独自の検証済みデータのみを使用することでこのリスクを軽減している組織として紹介しました。その他の根強い問題には、社内AI専門知識の不足、トレーニングデータの規模不足、および既存のHPC環境へのAI統合の固有の複雑さが含まれます。ジョセフ氏は、この複雑さがドメイン固有のAIソフトウェアおよびコンサルティングサービスの新しい市場の成長を促進すると予測しました。Hyperionの調査によると、調査対象組織の97%は、コスト上昇にもかかわらずAIの使用を拡大する計画であり、AIインフラストラクチャがより高価になるにつれて、大幅な予算増額が必要であることを強調しています。
オンプレミスソリューションによるAIリスクの軽減
理化学研究所のスーパーコンピューティング性能研究チームのチームリーダーであるイェンス・ドムケ氏は、科学用途へのAI導入の急増の中で見過ごされがちなリスク軽減の側面について厳しい警告を発しました。彼は、人的エラー、AIソフトウェアの脆弱性、サプライチェーンの弱点、固有のモデルリスク、および法的な問題や盗難などの外部からの脅威という5つの主要なリスク要因を概説しました。
ドムケ氏は、クラウドベースのAIサービスを利用している企業からの機密データ漏洩や、主要なAIプロバイダーに影響を与えたセキュリティ侵害など、現実世界のインシデントの例を挙げました。彼はまた、急速に開発されたAIソフトウェアが堅牢なセキュリティを欠いていることが多いことを強調し、基本的なセキュリティプロトコルが見過ごされた事例を引用しました。数十のソフトウェアパッケージを伴う可能性のある現代のAIワークフローの複雑さは、攻撃対象領域をさらに拡大します。
これらの遍在するリスクに対応するため、理研は独自のオンプレミスAI管理機能を開発しており、これを商用クラウドAI製品の安全でプライベートな代替手段として構想しています。この社内ソリューションは、外部サービスの機能を再現しつつ、データ漏洩、ハッキング、データ抜き取りのリスクを排除することを目的としています。
理研のインフラストラクチャはオープンソースコンポーネントに基づいて構築され、多層セキュリティエンクレーブを備えます。半オープン層は、セキュアなファイアウォールの背後で広範なユーザビリティを提供し、商用サービスに似ていますが、制御された環境内で行われます。より高いセキュリティ層は、医療や機密性の高い内部研究など、極秘の操作のために予約されます。核となる原則は「何も信頼しない」ことであり、すべてのモデルとサービスはコンテナ化され、プライベートネットワーク上で分離され、セキュアなリバースプロキシを介してアクセスされます。このアプローチにより、理研はデータとモデルを完全に制御でき、外部からの制限なしにオープンソースモデルやカスタムファインチューニングモデルを簡単に統合できます。
今後の展望
TPC25で共有された多様な視点全体から、一貫したメッセージが浮かび上がりました。つまり、生の計算規模だけでは、科学AIの潜在能力を最大限に引き出すには不十分であるということです。今後の道筋は、ドメインにチューニングされたモデル、シームレスなハイブリッド古典-量子ワークフロー、厳格なデータ品質基準、そして堅牢でプロアクティブなリスク管理を要求します。来る年は、これらの洞察を共有ツールやコミュニティ標準へと変換する上で極めて重要となるでしょう。TPC25で示された勢いが続けば、科学コミュニティは信頼を損なうことなく発見を加速するAIシステムへとさらに近づくでしょう。