Hugging Face:企業がAIコストを劇的に削減する5つの秘策

Venturebeat

企業は、人工知能モデルが莫大な計算能力を要求することを大いに受け入れており、それがさらなるリソースの継続的な追求につながっています。しかし、Hugging FaceのAIおよび気候担当リードであるSasha Luccioniは、異なるアプローチを提唱しています。組織は無限に計算能力を追求するのではなく、モデルのパフォーマンスと精度を高めるために、より賢い利用に焦点を当てるべきだと言います。Luccioniは、現在の業界の焦点は誤っており、あまりにも頻繁に「より多くのFLOPS、より多くのGPU、より多くの時間というニーズに目がくらんでいる」が、真の機会は既存の能力を最適化することにあると主張しています。

基本的な戦略の一つは、AIモデルを特定のタスクに合わせて適切にサイジングすることです。すべてのアプリケーションに大規模な汎用モデルをデフォルトで使用することは非効率的です。代わりに、タスクに特化した、あるいは「蒸留された」モデルは、ターゲットとするワークロードに対して、より大規模なモデルの精度に匹敵するか、あるいはそれを上回ることさえ可能であり、同時にコストとエネルギー消費を大幅に削減できます。例えば、Luccioniのテストでは、タスクに特化したモデルが汎用モデルよりも20〜30倍少ないエネルギーを使用できることが明らかになりました。これは、任意の要求を処理しようとするのではなく、単一の機能に最適化されているためです。蒸留とは、大きなモデルを最初に訓練し、その後、狭いアプリケーション向けに洗練するプロセスであり、ここで鍵となります。DeepSeek R1のような完全なモデルは8つのGPUを必要とする場合があり、多くの組織には手の届かないものですが、その蒸留バージョンは10倍、20倍、あるいは30倍も小さく、単一のGPUで実行可能です。オープンソースモデルの利用可能性の増加は、企業が既存のベースモデルを微調整できるため、ゼロからトレーニングするリソースを費やす必要がなくなり、協調的なイノベーションエコシステムを育成する上でさらに効率を高めます。企業が生成AIのコストとメリットの不均衡にますます苦慮する中、Luccioniが汎用AIではなく「特定知能」と呼ぶ、特定の高価値AIアプリケーションへの需要が次のフロンティアになりつつあります。

モデル選択以外にも、効率をデフォルトとしてシステムを設計することが極めて重要です。これには、行動経済学の概念である「ナッジ理論」を適用し、計算の選択に影響を与えることが含まれます。保守的な推論予算を設定し、常時稼働の生成機能を制限し、ユーザーに高コストの計算モードをオプトインさせることで、組織は行動をよりリソースを意識した慣行へと微妙に導くことができます。Luccioniは、テイクアウト注文時にプラスチック製のカトラリーが必要か顧客に尋ねる例を挙げ、廃棄物を劇的に削減したことを示しています。同様に、彼女は人気のある検索エンジンがAI要約を自動生成する方法や、OpenAIのGPT-5が単純なクエリに対してデフォルトで完全な推論モードになる方法を指摘しています。天気予報や薬局の営業時間のような一般的な質問に対しては、そのような広範な処理はしばしば不要です。Luccioniは、デフォルトの「推論なし」モードを提唱し、高コストの生成機能は複雑な、オプトインのシナリオに限定するべきだと述べています。

ハードウェア利用率の最適化もまた、重要な領域です。これには、リクエストのバッチ処理、計算精度の調整、基盤となるハードウェア世代に特化したバッチサイズの微調整などの実践が含まれます。企業は、モデルが本当に「常時稼働」する必要があるのか、あるいは定期的な実行とバッチ処理で十分なのかを厳密に評価し、それによってメモリ使用量を最適化すべきです。Luccioniは、これが微妙なエンジニアリングの課題であると強調しています。バッチサイズをわずかに増やすだけでも、メモリ要求の増加によりエネルギー消費が大幅に上昇する可能性があり、特定のハードウェアコンテキストに合わせた綿密な調整の重要性を示しています。

効率性への広範な転換を促進するためには、エネルギーの透明性を奨励することが不可欠です。Hugging Faceが今年初めに発表した「AIエネルギースコア」は、まさにそれを目指しています。家電製品の「エネルギースター」プログラムに似たこの新しい1〜5つ星評価システムは、モデルのエネルギー効率を明確な指標で示し、5つ星モデルが最も効率的です。Hugging Faceは、定期的に更新される公開リーダーボードを維持しており、この評価を「名誉の証」として確立し、モデル開発者がエネルギーを意識した設計を優先するように奨励することを目指しています。

最終的に、これらの戦略は「より多くの計算能力が良い」という考え方の根本的な見直しへと収束します。企業は反射的に最大のGPUクラスターを追求するのではなく、まず「望む結果を達成するための最も賢い方法は何だろうか?」と問うことから始めるべきです。多くのワークロードにおいて、優れたアーキテクチャ設計と綿密にキュレーションされたデータセットは、力任せのスケーリングを常に上回るでしょう。Luccioniは、組織が必要と認識しているよりもGPUの数が少ない可能性が高いと強調し、AIが達成すべき特定のタスク、以前にそのようなタスクがどのように処理されていたか、そして計算能力を追加することによる実際の増分利益を再評価するよう促しています。より大きなクラスターを巡る現在の「底辺への競争」は、単に生処理能力を蓄積するのではなく、最も適切な技術を活用し、目的志向のAIに戦略的に焦点を当てることに道を譲る必要があります。