AIがロボットの脳を相互プログラミング:「ターミネーター」への一歩

Theregister

コンピューター科学者のピーター・バーク氏は、人工知能における大きな飛躍を実証し、ロボットが高度な生成AIモデルを使用して他のロボットの「脳」をプログラミングできるようになったことを明らかにしました。最近発表されたプレプリント論文で詳しく述べられているこの画期的な研究は、SFでしばしば描かれる未来、すなわち機械が自己複製し、自身の知能を進化させる能力を持つ未来への明確な一歩を示しています。

カリフォルニア大学アーバイン校の電気工学およびコンピューター科学の教授であるバーク氏は、自律型ロボットが支配する架空の「ターミネーター」シナリオに言及することで、自身の研究を率直に始めています。この劇的な類似点を認めつつも、彼はそのような結果が決して現実にならないことへの熱烈な希望を表明しています。この感情は、AI技術に対する軍事的な関心が高まる中で特に重要です。

このプロジェクトでは「ロボット」を2つの異なる方法で定義しています。最初の「ロボット」は、Claude、Gemini、ChatGPTなどの様々な生成AIモデルで構成され、ローカルのラップトップやクラウドで動作します。これらのモデルは、2番目の「ロボット」をプログラミングするタスクを課されました。それは、コンパクトなRaspberry Pi Zero 2 W回路基板を搭載したドローンで、その制御システムをホストすることを目的としています。従来、ドローンの地上管制システム(GCS)は、リアルタイムのマッピング、ミッション計画、構成を処理し、地上ベースのコンピューターに常駐し、無線リンクを介してドローンと通信していました。バーク氏の革新は、生成AIがドローンが飛行中にウェブサーバーとして自身のGCSをホストし、インターネット経由でアクセスできるようにするために必要なすべてのコードを書くことができることを示しています。

開発プロセスには、VS Code、Cursor、Windsurfなどの異なるAIモデルと統合開発環境(IDE)を利用した一連の集中的な「スプリント」が含まれていました。Claudeとの最初のスプリントのような初期の試みでは、AIモデルが約12回のプロンプトの後で「コンテキストウィンドウ」の容量に達し、進行中の会話の追跡を効果的に失うという制限に遭遇しました。GeminiとCursorによるその後の取り組みでも、スクリプトエラーや、モデルの制限に対応するための大幅なコードのリファクタリングが必要となるなどの障害に直面しました。

最終的に、Windsurf AI IDEを使用した4回目のスプリントが成功しました。このAI生成ドローン制御システム、またはWebGCSは、2週間半の期間にわたって約100時間の人間の監視を必要とし、最終的に10,000行のコードに達しました。これは驚くべき効率向上を示しており、バーク氏が同等の人間が開発したプロジェクト「Cloudstation」に必要と見積もった時間よりも約20倍少ない時間で済みました。Cloudstationは彼と学生チームが作成するのに4年かかりました。

バーク氏の研究から得られた重要な観察の一つは、AIモデルの現在の制約です。これらは、10,000行を超えるコードを効果的に処理し、生成することに苦労しているようです。この発見は、S. Randoらによる研究など、他の最近の研究と一致しています。その研究では、コンテキスト長が増加するにつれて、Claude 3.5 Sonnetのようなモデルの精度が著しく低下することが指摘されています。バーク氏の経験は、約1行のコードが10個の「トークン」(AIモデルが処理する情報単位)に相当することを示唆しており、大規模なコード生成における現在の生成AIの実用的な上限を浮き彫りにしています。

Hantz Févry氏、空間データ企業GeolavaのCEOである彼は、このドローンプロジェクトを「魅力的」と称賛し、空間知能という急成長分野との整合性を指摘しました。彼は、生成AIを介してドローンが自律的に自身の指揮統制センターを構築するという概念は、野心的なだけでなく、将来のトレンドを示していると強調しました。しかし、フェヴリー氏はまた、「安全のための厳格なチェックと境界」の重要性を強調しました。この懸念はバーク氏の論文で部分的に対処されており、ドローンの運用中に手動オーバーライドのための冗長な人間制御トランスミッターの維持が言及されています。

フェヴリー氏はさらに、航空画像産業に対する広範な影響について詳述し、自律的なキャプチャがドローン、成層圏プラットフォーム、または低軌道衛星からであろうと、空間AIの贅沢品から基本的な側面へと変化していることを示唆しました。彼は、バーク氏のようなシステムが、センシング、計画、推論の能力がほぼリアルタイムでシームレスに融合する未来を垣間見せると信じており、Skydioのようなプラットフォームがすでに環境理解を再構築していることを指摘しています。フェヴリー氏は、そのようなAIシステムの最終的なテストは、敵対的または曖昧な現実世界の環境をナビゲートし、適応する能力であると結論付け、「タスク固有のロボット工学」ではなく「汎化可能な自律性」の未来を示唆しています。