OpenAgent論文、AIエージェントの静的学習の脆さ実証

AIエージェントのイメージ AI

研究者グループが、ツールを使いこなすAIエージェントの弱点を実証した論文を発表しました。ICML(International Conference on Machine Learning、機械学習分野の主要な国際会議)2026に採択されたこの研究は、静的なベンチマークで高得点を出すLLM(Large Language Model、大規模言語モデル)エージェントが、現実世界の細かな変化に直面すると性能を大きく落とす実態を、知覚・対話・推論・内部状態という4階層に分けて定量的に示しました。著者らは「OpenAgent」という評価の枠組みを提案し、対策として摂動を加えた再訓練手法も併せて示しています。

背景と文脈

ツールを呼び出して外部のAPIやファイルを操作するAIエージェントは、コーディング支援や業務自動化の現場で急速に普及しています。ただし現場のエンジニアの間では「ベンチマークのスコアは高いのに、実際の業務に投入すると急に失敗が増える」という声が根強くありました。

今回の論文Can Agents Generalize to the Open World? Unveiling the Fragility of Static Training in Tool Useは、この体感を学術的に裏付けたものです。著者らはまず「OpenAgent」という問題設定を形式化しました。エージェントが受け取る指示(クエリ)、実行するツール呼び出し(アクション)、返ってくる結果(観察)、扱う業務領域(ドメイン)という4つの軸で、訓練時と実運用時にズレ(分布シフト)が生じる様子をモデル化したものです。

研究チームはこのズレを、知覚・対話パターン・推論・内部状態という4つの階層に整理しました。知覚の階層では曖昧な指示やAPI形式の変更への対応力を測ります。対話の階層ではJSON以外の出力形式やエラーからの回復力を検証します。推論の階層ではツールの依存関係が変わったときの計画力を、内部状態の階層では「解けない課題を認識して断る」力やドメインをまたいだ推論の転用力を確かめています。

技術/ビジネス面

ロボットアームのテスト風景
Photo by ThisisEngineering on Unsplash

実験ではQwen2.5-7B-Instructという7Bパラメータ(70億個の重みを持つ)のオープンモデルを土台にしました。6050件の訓練データと880件の評価データを用意し、SFT(Supervised Fine-Tuning:正解データをそのまま学習させる教師ありファインチューニング)で訓練したエージェントと、GRPO(Group Relative Policy Optimization:複数の出力を相対評価しながら方策を更新する強化学習の手法)を使ったRL(Reinforcement Learning、強化学習)エージェントを比較しています。

結果は両方式とも脆弱でした。知覚の階層では、意味的に紛らわしい「罠」のような指示やツールの呼び出し名の変更だけで、SFTモデルの精度が大きく落ちました。無効なツール呼び出しの割合を示すTER(Tool Error Rate)も跳ね上がっています。推論の階層でも、ツールの依存関係を逆転させる「ロジック反転」テストで両方式とも急激に性能が低下しました。訓練データに含まれる依存関係のパターンを、丸暗記していただけだったことがうかがえます。特に深刻だったのが内部状態の階層です。解けないはずのタスクを渡されても、SFTモデルはわずか0〜0.3%しか正しく「対応不可能」と判断できませんでした。

これに対し著者らは、訓練データにわざと揺らぎを加えるPerturbation-Augmented Fine-Tuning(摂動拡張ファインチューニング:指示や環境にノイズを混ぜた状態で追加学習させる手法)を提案しています。論文の実験では、知覚の階層でのスコア低下幅が50.4ポイントから4.1ポイントまで縮小するなど、4つの階層すべてで大幅な改善が確認されました。

これからどうなるか

この結果は、ベンチマークの点数だけを見てエージェントを本番導入する判断がいかに危ういかを示しています。業務システムに組み込むエージェントでは、APIの仕様変更やユーザーの言い回しのゆれといった「小さな変化」が日常的に起きます。静的な評価だけでは、こうした変化への耐性を見抜けません。

開発者の視点で見ると、自社のエージェントを評価する際にも、正常系のテストだけでなく、意図的にツール名や出力形式を変えたり、解けないタスクを混ぜたりする「摂動テスト」を組み込む価値がありそうです。著者らはコードをGitHubのOpenAgentリポジトリで公開する予定としており、自前のエージェントの頑健性を測る土台として使えるようになるでしょう。

まとめ

ICML 2026採択の本研究は、LLMエージェントが静的な訓練だけでは現実世界の変化に弱いことを、知覚・対話・推論・内部状態の4階層で定量的に実証しました。SFT・RLいずれの訓練方式でも脆弱性は共通しており、摂動を加えた追加学習によって大幅な改善が見られています。ベンチマークの数字を鵜呑みにせず、動的な検証を重ねる姿勢が求められます。

参考リンク

アイキャッチ画像: Photo by Google DeepMind on Unsplash

タイトルとURLをコピーしました