2026年3月 2日 10:00
AIは物理的な体を動かすフィジカルAIが飛躍的な進化と遂げています。 2025年に自律歩行や複雑な地形のバランス制御からダンスなどをできるようになりました。 そして実用化の域に達しており工場内での導入も始まっています。
いま最前線で注目されているのが物理世界を認知して行動できるAI、VLA(Vision Language Action)モデルです。 カメラによる視覚、人間の言葉の理解、そして具体的な行動制御を一つのAIで処理する技術です。 これにより人間の指示の意図を読み取り、現場を判断し、作業を行う知性を備えることになりました。
具体的な事例はいくつかあります。
NVIDIA Project GR00T(プロジェクト・ルート)
人型ロボット専用の基盤モデルです。 いま世界中のロボットメーカーが採用しており、人間が作業する動画を見せるだけでロボったがその動作を即座に模倣・学習できるものです。
Google DeepMind 「Gemini Robotics」
最新のGemini 1.5 Proが持つ推論能力を物理作業に応用したモデルです。 散らかった部屋をきれいにしてという抽象的な指示でも、ごみと貴重品を視覚的に判断し、適切な場所に移動させることができます。
Tesla 「Optimus Gen 2」(オプティマス・ジェネレーションツー)
テスラの工場で実際に稼働しているものです。 VLA的な学習により電池の仕訳といった作業を特定のプログラム無しで自律的にこなしています。
このように物理世界で実際に作業するAIはどんどん導入されています。 しかしこれらのAIは今までになかったリスクを抱えていることも問題となっています。
安全事故: 物理世界での「ハルシネーション(幻影)」
テスラなどの工場で過去に発生した事故は、主に「固定されたプログラム」による誤作動でしたが、VLAではAIが3次元空間の状況を誤認し、目標達成を優先して人間と接触することが課題です。実証実験ではモデルが「人間を動かすべき物体」と見なす等の認識の歪みが重大事故に繋がるリスクとして指摘されています。
セキュリティ:物理的プロンプト注入(Physical Prompt Injection)
視覚情報を介した命令の乗っ取りです。 悪意ある看板やポスターを見せるだけでシステムの内部に侵入することなく外部からロボットを物理的に操り、荷物の強奪や施設の破壊を誘発させる脆弱性が確認されています。
テロ・悪用の懸念:自律型の追尾能力
国連機関の最新報告では、通信が途絶してもVLAによって自ら標的を特定し執拗に追尾し続ける自律型兵器がテロリストの戦力増幅器となるリスクを強く警告しています。
VLAの普及が進みサイバー攻撃の脅威は物理的な破壊へと変貌しています。 AIをいかに安全に管理し社会の信頼を維持するかが最大の課題となっています。
