ロボットや自律走行車などの物理AIエージェントに「能動的推論(Active Inference)」を適用することで、テスト時スケーリング(Training-Time Scaling:学習コストを増やすのではなく、推論時の計算を増やして性能を上げる手法)を実現できるという論文「Active Inference as the Test-Time Scaling Law for Physical AI Agents」が公開されました。自律走行タスクで推論効率を36%以上改善し、学習時には見ていない未知シナリオへの汎化も達成しています。LLM(大規模言語モデル)分野でのテスト時スケーリングの知見を物理AIに応用する研究で、ロボティクス開発の方向性に新たな選択肢を示しています。
背景と文脈
AIのスケーリングには大きく三つのアプローチがあります。学習データを増やす「データスケーリング」、モデルのパラメータ数を増やす「モデルスケーリング」、そして推論時の計算量を増やす「テスト時スケーリング(Test-Time Scaling)」です。2024年から2025年にかけて、OpenAIのo1シリーズやDeepSeek-R1がテスト時スケーリングをLLMに応用して大きな性能向上を達成し、注目を集めました。
ところが物理AIエージェント——具体的にはロボットアームや自律走行車——のテスト時スケーリングはほとんど研究されてきませんでした。物理世界の非定常性(常に変化し続ける環境)、学習時には存在しなかったシナリオへの対処、リアルタイムでの意思決定という制約が、LLMとは異なる難しさを生んでいます。既存の強化学習(Reinforcement Learning:報酬シグナルを手がかりに行動を改善する手法)やベイズ強化学習でも汎化性能に限界がありました。
技術/ビジネス面

本研究が採用したのは「能動的推論(Active Inference)」というフレームワークです。これは神経科学に起源を持つ理論で、エージェントが「自由エネルギー最小化(Free Energy Minimization)」という原理に従って行動することで、予測誤差を継続的に減らしながら環境に適応していくという考え方です。脳の大脳基底核や前頭前野が果たす役割と対応していると研究チームは説明しています。
具体的には、エージェントの方策(どう行動するかの規則)をソフトなベイズ推論(確率的な信念更新)として定式化します。推論のたびに実際の経験で信念を更新することで、学習時には遭遇しなかった状況でも適切に行動できる適応性が生まれます。計算上は変分推論(Variational Inference:複雑な確率分布の近似計算手法)として実装されます。
自律走行タスクでの実験では、モデルフリーQ学習(環境のモデルを持たずに価値関数を学ぶ強化学習手法)とベイズ強化学習の両方に対して性能が上回り、推論効率を36%以上改善しました。未知シナリオへの汎化とリアルタイム推論の両立は、これまで実現が難しかった組み合わせで、実用的な物理AIへの道を開く結果といえます。
これからどうなるか
能動的推論はもともと神経科学の理論として提唱されたものですが、実用的なAIシステムへの応用研究は近年活発になっています。今回の研究はその流れをロボティクスに持ち込んだもので、自律走行以外の領域——産業用ロボット、ドローン、人型ロボット——でも同様のアプローチが試みられる可能性があります。
開発者の観点では、物理AIの開発においてテスト時スケーリングという設計上の選択肢が広がったことを意味します。学習データの拡充(コストと時間がかかる)ではなく、推論時の計算を増やすことで未知環境への対応力を高めるアーキテクチャ設計が現実的な選択肢になります。とくにシミュレーションで学習してリアル環境に転用する「Sim-to-Real転送」のギャップ問題に対して、テスト時の適応能力を持つ本手法が有効に働く可能性があります。物理AIを扱うプロジェクトでは、既存の固定ポリシーとの性能比較実験を検討する価値があるでしょう。
まとめ
能動的推論をテスト時スケーリングとして物理AIに適用するこのアプローチは、ロボティクス開発に新たな設計思想をもたらします。自律走行タスクでの36%の推論効率改善と未知シナリオへの汎化は、実用的な成果として注目に値します。LLM分野のテスト時スケーリングの知見が物理AIにも応用される流れは今後も続きそうです。
参考リンク
アイキャッチ画像: Photo by ThisisEngineering on Unsplash
