LLMエージェントの計画は消える — 34pt低下を実証した論文

LLMエージェント（大規模言語モデルを使って長期タスクを自律実行するシステム）が長時間動作すると、タスク開始時に立てた計画情報がコンテキストウィンドウ（モデルが一度に参照できる入出力の長さ制限）から押し出されてしまう——そんな根本的な問題を実証した「Plans Don’t Persist: Why Context Management Is Load Bearing for LLM Agents」という論文が公開されました。Llama-3.1-70Bでは計画シグナルが1ステップで4.1倍も減衰し、ALFWorldというエージェント評価環境（家庭内タスクを音声指示でこなす標準ベンチマーク）では計画を単純に除去するだけで性能が34.7ポイント低下することを示しています。エージェントアーキテクチャの設計上の盲点を浮き彫りにした研究です。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

エージェントシステムとは、LLMが単発の質問に答えるのではなく、ツールを呼び出しながら複数ステップにわたってタスクを実行するシステムです。コードを実行したり、ファイルを読み書きしたり、ウェブ検索したりしながら、最終的な目標を達成します。近年のエージェント開発では「まず計画を立ててから実行する」というプランニング・ファーストのアプローチが広く採用されてきました。

問題はここにあります。計画を立てた時点では計画情報はコンテキストの先頭に存在しますが、エージェントが次々とツールを呼び出し、観測結果を受け取り、新たな思考を重ねていくうちに、コンテキストウィンドウが埋まっていきます。ウィンドウが満杯に近づくと、古い情報から押し出されます。計画は「最初に書いた情報」なので、最も早く失われる候補になります。開発者は計画を明示的に保持する仕組みを実装していなければ、エージェントは計画をすでに忘れた状態でタスクを続けることになります。

技術/ビジネス面

green and black circuit board memory chip — Photo by Akshar Dave🌻 on Unsplash

研究チームは「リプレイペアリング」という手法でこの現象を定量化しました。同じタスクを「計画情報がコンテキストに残っている状態」と「残っていない状態」で比較し、どれだけ性能が落ちるかを測ります。結果はモデルによって異なりますが、Llama-3.1-70Bでは計画シグナルが1ステップ後に4.1倍減衰し、HotpotQA（複数の情報を組み合わせて答える多段階質問応答ベンチマーク）では12.4倍もの急落を記録しました。

ALFWorldでは「計画を単純に除去したケース」と「プローブ誘導型の再表面化（計画情報を定期的にコンテキストに呼び戻す仕組み）」を比較しています。計画除去で34.7ポイントの性能低下が生じ、再表面化でもその低下を完全には回復できないことが示されました。つまり、計画情報をコンテキストに戻すだけでは根本的な解決にならない、ということです。

推論モデル（DeepSeek-R1などの「考えながら答える」モデル）については、<think>タグ内部で計画を再導出するため、見かけ上は影響が小さく見える「推論トレース混入問題」も特定されています。これは評価上の落とし穴で、推論モデルを使えば計画消失問題が解決するわけではなく、評価自体に注意が必要だということを示しています。

これからどうなるか

この研究が示す結論は「コンテキスト管理はエージェント設計の中心的課題であり、後付けで対処できるものではない」という点です。計画を文字列としてプロンプトに含めるだけでは不十分で、エージェントが計画を安定した内部状態として保持できるアーキテクチャを設計段階から検討する必要があります。

開発者にとっての具体的な示唆は複数あります。長時間タスクを扱うエージェントでは、計画情報をシステムプロンプトに固定したり、外部メモリに保存して定期的に再注入したりする設計が有効です。また、パフォーマンスが途中から低下するエージェントは計画情報が消失しているサインである可能性があり、デバッグ時の確認ポイントとして覚えておく価値があります。コンテキストウィンドウが128Kや200Kに拡大しても、長期タスクでは同様の問題が生じるため、ウィンドウサイズの拡大だけでは解決しません。