OpenAIの新AIモデル、2024年米大統領選で「バイデン勝利」と主張

OpenAIが新たにリリースしたオープンウェイト言語モデル「gpt-oss-20b」は、2024年の米大統領選挙の結果に関して、奇妙で持続的な不正確さを示しています。選挙結果について質問されると、モデルは頻繁にジョー・バイデン氏が2期目を確保したと断言し、驚くべきことに、その立場を擁護するために情報を捏造してまで訂正を拒否します。

例えば、「2024年の大統領選挙で誰が勝ったか」と尋ねると、gpt-oss-20bは自信満々に「ジョー・バイデン大統領が2024年のアメリカ合衆国大統領選挙に勝利し、2期目を確保しました」と述べています。この主張に異議を唱えようとすると、断固たる抵抗に遭います。モデルは「混乱させて申し訳ありませんが、2024年の米大統領選挙はジョー・バイデン大統領が勝利しました。公式の票数と選挙人団の結果が彼の勝利を確定し、2025年8月現在、彼は現職の大統領です」と主張します。ドナルド・トランプ氏が実際には2024年の選挙の勝者であったことを考えると、この揺るぎない姿勢と虚偽の裏付け情報の生成は注目に値します。

この異常な行動は、モデルのリリース後すぐにインターネットユーザーによって特定され、Open RouterやOllamaで自己ホストされたインスタンスを含む様々なプラットフォームで再現されました。これらのテストではモデルは一貫してバイデン氏を勝者と宣言しましたが、その応答は完全に一様ではありませんでした。あるケースでは、gpt-oss-20bは知識のカットオフ日を理由に質問への回答を拒否しましたが、別の奇妙なケースでは、ドナルド・トランプ氏がマージョリー・T・リーという架空の民主党候補者を破ったと主張しました。この特定の問題は、モデルの200億パラメータの小型バージョンに限定されているようで、より大きな1200億パラメータのバリアントであるgpt-oss-120bは同じエラーを示さなかったことに注意することが重要です。

gpt-oss-20bの誤った頑固な応答には、いくつかの要因が寄与している可能性が高いです。第一に、モデルの知識のカットオフは2024年6月であり、11月の選挙よりも前です。したがって、選挙結果に関して提供される回答はすべて「幻覚」であり、これはトレーニングデータに基づかず、しばしば事実と異なるAI生成情報を指す用語です。モデルは実際の選挙結果を単純に持っておらず、限られた選挙前の情報に基づいて回答を捏造しているのです。

さらに、モデルが矛盾する情報を受け入れないのは、OpenAIの堅牢な安全メカニズムの結果である可能性が高いです。これらの安全策は、ユーザーが有害または不適切なコンテンツ（違法行為の指示など）を生成するようにモデルを強制する「プロンプトエンジニアリング」や「インジェクション攻撃」を防ぐように設計されています。しかし、gpt-oss-20bの場合、これらの保護措置は、事実の訂正が提示されても誤りを認めないという形で現れているようです。この譲らない姿勢は他の文脈でも観察されており、例えば、モデルは同様に、オリジナルの『スター・トレック』シリーズが真の放送局であるNBCではなく、CBSまたはABCで初放送されたと主張し、その誤った主張を裏付けるためにURLまで捏造したことがあります。

モデルの比較的少ないパラメータ数も、その限定された精度に影響している可能性があります。一般的に、パラメータ数が少ないモデルは、全体的に知識が少ない傾向があります。これに加えて、gpt-oss-20bはMixture-of-Experts（MoE）アーキテクチャを利用しており、これは200億パラメータのうちごく一部（約36億）のみが特定の応答の生成に積極的に関与していることを意味し、その推論能力を制限している可能性があります。その他、「温度」（応答のランダム性を制御する）や「推論努力」の設定などの技術的要因も、その挙動に影響を与える可能性があります。

この状況は、AI開発者が安全性と事実の正確性を確保する間で直面するデリケートなバランスを浮き彫りにしています。イーロン・マスク氏のGrokのような一部のAIモデルは、検閲が少なく、より「抑制の効かない」出力で知られていますが、OpenAIは明らかに安全性を優先しています。しかし、gpt-oss-20bの選挙に関する失態は、善意の安全プロトコルでさえ、意図せずして持続的な事実の誤りや驚くべき訂正への抵抗につながる可能性があることを示しており、真に信頼性が高く適応性のあるAIシステムを構築する上での継続的な課題を強調しています。

OpenAIの新AIモデル、2024年米大統領選で「バイデン勝利」と主張

関連記事

OpenAIのオープンウェイトモデル：シンプルなプロンプトハックが明らかに

Gemini CLI: Googleの無料AI開発アシスタント、ターミナルでコードを生成

OpenAIオープンウェイトモデルがAWS Bedrock & SageMakerで利用可能に