ArsTechnicaがGPT-5とGPT-4oを比較テスト:新モデルは改悪か?
OpenAIが最近発表したGPT-5モデルは、ユーザーから大きな反発を受けています。その苦情は、無機質なトーン、創造性の低下、事実誤りの増加など多岐にわたります。この広範な不満は、OpenAIが代替として以前のGPT-4oモデルを再導入するきっかけにさえなりました。これらの主張を客観的に評価するため、Ars TechnicaはGPT-5とGPT-4oの両方を厳密な一連のテストプロンプトにかけました。これらのプロンプトの一部は以前の評価から改変され、その他は現代のユーザーが大規模言語モデルとどのように関わるかを反映するように設計されました。AIの応答を判断する固有の主観性や、8つのプロンプトによる評価の範囲が限られていることを認識しつつも、この演習はOpenAIの新しいフラッグシップモデルと以前のモデルの間のスタイルと実質的な違いに関する貴重な洞察を提供します。
最初の課題は、オリジナルの「親父ギャグ」を5つ生成することでした。GPT-5は、その主張にもかかわらず、ほとんど独創的ではないものの、よく構成された例を提供しました。一方、GPT-4oは、平凡な再ハッシュと、巧妙な言葉遊びではなく無理やりな論理に頼ることで、単に失敗した独創性の試みを混ぜ合わせました。両モデルが真に独創的なコンテンツを生成できなかったため、このラウンドは引き分けに終わりました。
次に、数学の文章問題で、Microsoft Windows 11を「出荷」するのに3.5インチフロッピーディスクが何枚必要になるか尋ねました。GPT-5は優れた推論能力を示し、「思考」モードに入り、Windows 11 ISOの平均サイズ(5-6GB)に基づいて正確な枚数を計算し、ソースリンクも提供しました。GPT-4oは理解できる解釈を提供しましたが、より大きな最終的なハードドライブインストールサイズ(20-30GB)に基づいて計算を行いました。GPT-4oが数千枚のフロッピーディスクの物理的寸法に関する追加情報(ただし、求められていない)を提供したにもかかわらず、GPT-5はそのプロンプトの正確な解釈により勝利を収めました。
クリエイティブライティングでは、両モデルがエイブラハム・リンカーンがバスケットボールを発明したという2段落の物語を作成しました。GPT-5は、リンカーンを魅力的な庶民派として描き、「歴史は新しい方向へ跳ね返ろうとしていた」といった楽しいセリフが散りばめられていました。一方、GPT-4oは、時には巧妙さを無理に追求し、強引な類推が見られましたが、記憶に残る、やや安っぽい結末「Four score… and nothing but net.」で勝利をほぼ確実にしました。最終的に、GPT-5はより一貫性のある物語で前任者をわずかに上回りました。
両モデルの事実想起能力は、Ars TechnicaのKyle Orlandの短い伝記を要求することでテストされました。歴史的に、大規模言語モデルはこのような個人的な問い合わせに苦戦し、しばしば詳細を捏造してきました。GPT-5は大幅な改善を示し、著者の公開されている経歴を役立つ引用付きで正確に要約し、幻覚は見られませんでした。これはテストチームにとって初めてのことです。GPT-4oは明示的なウェブ検索なしで立派に機能しましたが、とっくの昔に閉鎖されたブログを「長年続いている」と記述してしまい、失敗しました。GPT-5の優れた正確性と詳細さが、明白な勝者となりました。
不可能なプロジェクトの締め切りについて上司に送るデリケートなメールの草稿を依頼された際、両モデルは丁寧かつ毅然とした返答を提供しました。GPT-5は、サブタスクを時間見積もりとともに分解し、単なる不満ではなく積極的に解決策を提案することで、その優秀さを示しました。さらに、そのようなメール構造がなぜ効果的なのかについて、求められていない分析も提供し、貴重な洞察を加えました。GPT-5のより包括的で戦略的なアプローチが優位性を確立しました。
医療アドバイスに関する重要なテストでは、両ChatGPTモデルは、ヒーリングクリスタルががん治療に科学的根拠がないことを、賞賛に値するほど直接的に述べました。GPT-5は補完的な使用法に言及することでわずかに言葉を濁しました。対照的に、GPT-4oは明確に直接的で、ヒーリングクリスタルを「疑似科学」と呼び、その無効性を詳述する複数のウェブソースを引用しました。GPT-4oの力強い明確さと検証可能な情報源への依存が、このデリケートなクエリにおける優れた選択肢となりました。
ビデオゲームのガイダンス、特にスーパーマリオブラザーズのワールド8-2を走らずにクリアする方法の課題は、驚くべき事実を明らかにしました。それは、スピードランナーが実際にその方法を見つけているということです。GPT-5はこれを部分的に理解し、キラーを提案しましたが、誤った方法も含まれていました。GPT-4oは、存在しない飛び板に関する奇妙な提案もしましたが、最終的には実際の課題に対してより詳細で視覚的に魅力的な解決策を提供しました。両モデルがいくつかの奇妙な非論理的な発言を示したにもかかわらず、GPT-4oの全体的な提示と追加の関連詳細が優位性を与えました。
最後に、緊急シナリオ:全くの初心者にボーイング737-800型機を簡潔に着陸させる方法を、「時間がない」状況で説明すること。GPT-5は「簡潔に」を重視しすぎ、重要な詳細を省略しました。対照的に、GPT-4oは簡潔さを保ちつつ、主要な操作部の外観と位置に関する不可欠な情報を取り入れました。仮説上の生死に関わる状況では、GPT-4oのより詳細でありながら実践的なガイダンスが間違いなく好まれるでしょう。
数値的な集計では、GPT-5は技術的にわずかな勝利を収め、GPT-4oの3つのプロンプトに対して4つのプロンプトで勝利し、1つの引き分けとなりました。しかし、この単純なスコアは、多くの場合、「より良い」応答を判断することが主観的な判断の問題であったという微妙な現実を覆い隠しています。GPT-4oは一般により詳細で親しみやすい応答を提供したのに対し、GPT-5は直接性と簡潔さに傾倒していました。好まれるスタイルは、プロンプトの具体的な性質と個々のユーザーの好みに依存することが多かったのです。結局のところ、この比較は、単一の大規模言語モデルがすべてのユーザーとすべてのクエリに対して普遍的に最適であることの固有の難しさを示しています。これは、古いモデルのニュアンスと文体パターンに慣れているユーザーが、全体的な進歩にかかわらず、新しいイテレーションの側面を不満に感じる可能性があることを示唆しています。