ChatGPT-5の『博士レベル』AI、基本的なスペルと地理で苦戦
OpenAIは、フラッグシップモデルであるChatGPTの最新版、GPT-5をリリースし、週7億人のプラットフォームユーザーが利用できるようになりました。CEOのサム・アルトマンは、その前身である「大学生」レベルのモデルから「ポケットの中の博士号レベルの専門家」に匹敵する大きな飛躍であると謳っていますが、新しいAIの初期ユーザー体験は、スペルや地理のような基本的なタスクでの予期せぬ苦戦を明らかにし、奇妙な状況を描き出しています。
野心的な主張にもかかわらず、ソーシャルメディアユーザーは、この高度なチャットボットが基本的な事実誤りを犯していることをすぐに発見しました。例えば、Blueskyのあるユーザーは、GPT-5が「blueberry」という単語に「B」が3つ含まれていると繰り返し主張するのを見つけました。AIは自信満々に「ええ、blueberryは、真ん中がほとんどつまずくような単語の一つで、まるで『b-b-気をつけろ』と言っているかのようです」と答え、さらに「でも、その小さな『bb』の瞬間は満足感がありますね。単語がより弾むように感じられます」と付け加えました。
不正確さは単純なスペルミスにとどまりませんでした。別のユーザーは、チャットボットが「R」の文字を含む米国の州を正しく識別できないと報告しました。地図の生成を促された際、GPT-5は「Krizona」や「Vermoni」のような州名を誤ってスペルアウトしただけでなく、カリフォルニアを二重にリストアップし、「New Jefst」や「Mitroinia」のような存在しない州を捏造しました。ガーディアン・オーストラリアによるモデルのテストでも、これらの限界がさらに浮き彫りになりました。GPT-5は「R」を含むオーストラリアの州や地域を識別できましたが、ノーザンテリトリーには5つではなく3つの「R」しかないと誤って述べ、地図上では「Northan Territor」と表示しました。
コメントを求められたOpenAIは、製品の発売時に、GPT-5がエラーや「AIの幻覚」(AIが自信を持って情報を捏造する現象)の発生を減らすだろうと以前に述べていました。同社は、これらの問題の潜在的な原因を、GPT-5の複雑なアーキテクチャに起因すると考えています。このアーキテクチャは、「リアルタイムルーター」を採用しており、会話のタイプと意図に基づいて、最も適切な内部AIモデルを選択するように設計されています。OpenAIは、ユーザーがAIに「これについてよく考える」ように指示することで、最も高度な推論モデルを起動させることができると示唆しています。同社は、このルーティングシステムが、モデルの切り替えや応答の好み率を含むユーザーフィードバックを通じて継続的に改善されていると主張しています。
しかし、業界専門家の観察は、問題がより根深い可能性があることを示唆しています。メディアおよびAIスタートアップEveryのCEOであるダン・シッパーは、GPT-5が、論理的にその推論モデルをトリガーすべき質問に対しても時々幻覚を起こすと指摘しました。シッパーは、小説の一節の写真を撮って説明を求めた後、GPT-5が「自信を持って話をでっち上げる」事例を語りました。しかし、AIに明示的に「もっと長く考える」ように依頼すると、正確な応答が得られることが多いことを発見しました。
OpenAIのCEOサム・アルトマンは、AIがまだ汎用人工知能(AGI)—人間のような認知能力のレベル—に達していないことを認めていますが、GPT-5を「一般的に知的」であり、「AGIへの道における重要な一歩」であると述べています。しかし、現在のユーザー体験は、洗練されたAI能力と、基本的な言語モデルにさえ期待される基礎的な正確さとの間のギャップを埋めるという、根強い課題を浮き彫りにしています。