OpenAIのgpt-oss-20b LLMをローカルで実行する方法:完全ガイド

Theregister

OpenAIは最近、2つの「オープンウェイト」モデル、gpt-oss-20bgpt-oss-120bを公開することで、大規模言語モデル(LLMs)のアクセシビリティを向上させました。これにより、ユーザーはこれらの高度なAIツールを個人のコンピューターに直接ダウンロードして実行できるようになります。この開発は、高度なAIへのアクセスを民主化する上で重要な一歩となり、ユーザーはクラウドインフラに依存することなく強力なモデルを活用できます。

2つのうち軽量なgpt-oss-20bは、210億のパラメータを特徴とし(その複雑さと規模を示す尺度)、動作には約16GBの空きメモリが必要です。より大規模なgpt-oss-120bは、1170億のパラメータを持つはるかに要求の厳しいモデルであり、80GBものメモリを必要とします。これを比較すると、DeepSeek R1のような最先端の「フロンティア」モデルは6710億のパラメータを誇り、約875GBのメモリを要求します。これが主要なAI開発者が大規模なデータセンターを急速に建設している理由です。gpt-oss-120bはほとんどの家庭用セットアップでは手の届かない存在ですが、gpt-oss-20bは驚くほどアクセスしやすいです。

gpt-oss-20bを実行するには、コンピューターには少なくとも16GBの専用ビデオRAM(VRAM)を搭載したグラフィックス処理ユニット(GPU)、または最低24GBのシステムメモリが必要です。これにより、オペレーティングシステムや他のアプリケーション用に少なくとも8GBが利用可能であることが保証されます。パフォーマンスはメモリ帯域幅に決定的に依存します。GDDR7またはGDDR6Xメモリを使用し、1000 GB/秒以上でデータを転送できるグラフィックスカードは、20〜100 GB/秒の範囲で動作する一般的なノートパソコンやデスクトップのDDR4またはDDR5メモリを大幅に上回ります。

ローカル展開には、Ollamaが重要なツールとして登場します。この無料のクライアントアプリケーションは、Windows、Linux、macOS全体でこれらのLLMをダウンロードして実行するプロセスを効率化します。ユーザーはまず、それぞれのオペレーティングシステム用のOllamaをダウンロードしてインストールできます。起動すると、アプリケーションは通常gpt-oss:20bをデフォルトとして選択します。「手紙を書く」などのプロンプトを開始すると、モデルデータの大規模なダウンロード(プラットフォームによって約12.4GBから13GB)がトリガーされます。このプロセスにはかなりの時間がかかる場合があります。ダウンロードが完了すると、ユーザーはOllamaの直感的なグラフィカルインターフェースを通じてgpt-oss-20bと対話できます。

より技術的なアプローチを好む方やパフォーマンスの洞察を求める方のために、Ollamaはコマンドラインインターフェース(CLI)操作もサポートしています。ターミナルからOllamaを実行すると、ユーザーは「詳細モード」をアクティブにでき、クエリの完了にかかった時間を含む詳細な統計情報が提供されます。このオプションは、すべてのサポートされているオペレーティングシステムで利用でき、より詳細な制御と診断情報を提供します。

gpt-oss-20bのローカルパフォーマンスを評価するため、3つの異なるハードウェア構成で2つのプロンプトを使用してテストが実施されました。1つはテイラー・スウィフトへの600語のファンレターの要求、もう1つは初代米国大統領に関するより簡単なクエリです。テストデバイスには、Lenovo ThinkPad X1 Carbonノートパソコン(Core Ultra 7-165U CPU、64GB LPDDR5x-6400 RAM)、Apple MacBook Pro(M1 Max CPU、32GB LPDDR5x-6400 RAM)、およびディスクリートNvidia RTX 6000 Ada GPUを搭載した自作PC(AMD Ryzen 9 5900X CPU、128GB DDR4-3200 RAM)が含まれていました。

Lenovo ThinkPad X1 Carbonは著しく遅いパフォーマンスを示しました。ファンレターは10分13秒かかり、単純な大統領に関するクエリには51秒を要しました。この遅さは、Ollamaがノートパソコンの内蔵グラフィックスやニューラル処理ユニット(NPU)を活用できなかったことに主に起因し、処理が効率の低いCPUに強制されたためです。この「思考」フェーズでは、モデルは通常1〜2分処理に費やしてから出力を生成します。対照的に、Apple MacBook Proは、ThinkPadと同様のメモリ速度であるにもかかわらず、それを大幅に上回り、ファンレターをわずか26秒で完成させ、大統領の質問にはわずか3秒で回答しました。当然のことながら、ハイエンドのNvidia RTX 6000 Ada GPUを搭載したデスクトップPCは、ファンレターをわずか6秒で、大統領の質問への回答は0.5秒未満で提供しました。

これらの結果は、gpt-oss-20bのローカルパフォーマンスがハードウェアに大きく依存していることを強調しています。強力な専用GPUまたは最新のApple Siliconプロセッサを搭載したシステムは、堅牢なパフォーマンスを期待できます。しかし、Ollamaが完全にサポートしていない統合グラフィックスに依存しているIntelまたはAMD搭載のノートパソコンのユーザーは、かなりの遅延を経験する可能性があり、クエリの処理中に休憩が必要になるかもしれません。このようなパフォーマンスのボトルネックに直面しているユーザーには、LM Studioのような代替アプリケーションもローカルLLM実行を容易にするため、より最適化されたエクスペリエンスを提供する可能性があります。