GPT-5は期待外れ:AIは純粋な研究から応用重視へ

Technologyreview

OpenAIのCEOであるサム・アルトマンは、先週木曜日のGPT-5リリースに先立ち、その能力が彼を「AIに比べて無力だと感じさせた」と述べ、原子爆弾の開発者との類似性を引き合いに出し、非常に高い期待を設定しました。この新しい提供物は、単なる段階的なアップグレードではなく、人工汎用知能(AGI)への極めて重要な一歩として位置づけられました。AGIは、AIの熱心な支持者が人類を根本的に良い方向へと変革すると信じる、AIの長年の約束されたフロンティアです。しかし、この計り知れない期待の裏で、GPT-5は概して期待外れに終わりました。

初期のテスターや批評家は、GPT-5の応答における明白なエラーを迅速に指摘しました。これは、アルトマンがリリース当日に「必要なあらゆる分野で、正真正銘の博士号レベルの専門家のように機能する」と断言したことと直接矛盾します。OpenAIが、複雑な推論モデルであろうと、より速くシンプルなモデルであろうと、与えられたクエリに最適なAIモデルをGPT-5が自動的に識別するという約束についても問題が浮上しました。アルトマン自身も、この機能に欠陥があり、ユーザーの制御を損なうことを認めているようです。より肯定的な点としては、新しいモデルは、以前のバージョンがユーザーを過度に褒め称える傾向があったのに対し、GPT-5は彼らを過剰に褒める傾向が少ないと報告されています。全体として、一部の観察者が指摘しているように、このリリースは、AI能力の画期的な飛躍というよりも、より洗練され、より美的に魅力的な会話インターフェースを提供する、磨き上げられた製品アップデートのように感じられます。

この生の知能における一見控えめな進歩は、AI業界内部のより広範なシフトを反映しています。一時期、AI企業は主に、詩から有機化学まで多様なアプリケーションに汎用知能が自然に変換されると信じ、普遍的な「脳」に似た、可能な限り最もスマートなモデルを構築することに注力していました。戦略は、モデルのスケーリング、トレーニング技術の洗練、および基礎的な技術的ブレークスルーの追求を中心に展開していました。しかし、このアプローチは進化しているようです。期待されたブレークスルーが希望どおりに迅速に実現しない可能性があるため、現在の戦略は、既存のモデルを特定のアプリケーション向けに積極的に販売することを含んでいます。多くの場合、野心的な主張を伴います。例えば、企業は、初期の証拠がそうではないことを示唆しているにもかかわらず、AIモデルが人間のコーダーを置き換えられるとますます主張しています。この転換は、予見可能な将来において、大規模言語モデルのコア能力はわずかな改善しか見られない可能性があり、AI企業が現在の提供物の有用性を最大化せざるを得なくなることを意味します。

この戦略的転換が最も顕著に現れているのは、OpenAIがユーザーに対し、GPT-5を健康アドバイスに活用するよう明確に奨励している点です。これは特に困難でデリケートな領域です。当初、OpenAIは医療関連の問い合わせを大々的に避けており、ChatGPTは医療専門知識の欠如に関する広範な免責事項を頻繁に提供し、時には健康関連の質問に全く回答を拒否することもありました。しかし、報告によると、これらの免責事項は後続のモデルリリースとともに消え始めました。OpenAIのモデルは現在、X線やマンモグラムを解釈でき、さらにはユーザーを診断に導くための追加の質問をすることもできます。

この医療分野への意図的な推進は、5月にHealthBenchの発表によって確固たるものとなりました。これは、医療専門家の意見に対してAIの健康トピックにおける熟練度を評価するために設計されたシステムです。これに続き、7月にはOpenAIが共同執筆した研究が発表され、AIモデルの支援を受けたケニアの医師グループが診断エラーを減らしたと報告されました。GPT-5のリリースは、この軌道をさらに確固たるものにしました。アルトマンはOpenAIの従業員であるフェリペ・ミリオンとその妻カロライナ・ミリオンを紹介しました。カロライナは最近、複数の種類のがんと診断されていました。カロライナは、生検結果からの複雑な医療専門用語を翻訳したり、放射線治療を受けるべきかどうかの決定を支援するためにChatGPTを使用した経験を共有しました。このトリオはこれを、患者と医師間の知識のギャップを埋めるための力強い例として提示しました。

しかし、このアプローチの変化はOpenAIを危険な領域に陥らせています。同社は、AIが訓練された医師にとって有益な臨床ツールとして機能するという証拠から、医学的背景を持たない個人がAIモデルから直接個人的な健康アドバイスを求めるべきだと示唆するために、過度に推論しているようです。重大な懸念は、多くのユーザーが医師に相談することなく、そのようなアドバイスに従う可能性があることです。特に、チャットボットがめったにそう促さなくなった今ではなおさらです。このリスクの明確な例は、GPT-5のリリースからわずか2日前に現れました。『内科医学年鑑』が発表した症例研究では、ある男性がChatGPTとの会話後、塩の摂取を止め、危険な量の臭化物を摂取した結果、重度の臭素中毒を発症したと詳細に記されています。これは1970年代以降、米国ではほぼ根絶された状態です。彼は危うく命を落とすところで、数週間入院しました。

本質的に、この状況は説明責任に関する重大な問題を提起します。AI企業が抽象的な汎用知能を約束することから、ヘルスケアのような専門分野で人間のような助けを提供することに移行する際、誤りに対する責任の問題は最も重要かつ大部分が未解決のままです。ノースカロライナ大学シャーロット校のデータサイエンスと哲学の助教授であるダミアン・ウィリアムズが指摘するように、「医師が誤りや偏見のために有害な医療アドバイスを与えた場合、あなたは彼らを医療過誤で訴え、補償を得ることができます。」彼はこれをAIと鋭く対比させています。「ChatGPTが、偏見のあるデータで訓練されたため、あるいは『幻覚』がシステムの操作に固有のものであるために有害な医療アドバイスを与えた場合、あなたの救済策は何ですか?」現在の状況は、テクノロジー企業がAIモデルが引き起こす可能性のある損害に対して責任を負うことを示唆するものはほとんどありません。