arXivに投稿されたAgentic Chain-of-Thought Steering(ACTS)論文(arXiv:2606.03965)が、LLM(Large Language Model、大規模言語モデル)の推論プロセスを外部のコントローラーエージェントから制御する新手法を提案しています。Chain-of-Thought(CoT:思考の連鎖。モデルが答えを導く前に中間ステップを出力させる手法)による拡張推論は精度を高める一方でトークン消費量が膨らみ、推論プロセスを途中で変えられないという課題がありました。ACTSはこれをMDP(Markov Decision Process、マルコフ決定過程:状態・行動・報酬で逐次的な意思決定を定式化するフレームワーク)として定式化し、推論器本体を変更せずに推論効率を制御できることを示しています。
背景と文脈
GPT-4oやClaude Sonnet 4.6のような最新の推論モデルは、複雑な問題に対してステップを踏んだ思考過程を出力します。この拡張推論により精度は向上しますが、同時に生成するトークン数(モデルが処理する最小単位のテキスト片)が大幅に増え、APIコストとレイテンシ(応答時間)が跳ね上がります。
また、一度推論を開始すると外から「もう少し短くまとめて」「違う戦略を試して」と介入することは現状では困難です。推論を短縮するために推論モデル自体を再訓練するアプローチもありますが、モデルごとに訓練し直す必要があり、実用コストが高くなります。
ACTSが着目したのは「推論器を変えず、別のエージェントが外側からステアリング(操縦)する」という分離設計です。制御と推論の責任を分けることで、特定の推論モデルに依存しない汎用的な効率化が可能になります。
技術/ビジネス面

ACTSの構造は「フリーズされた推論器(訓練済みモデル、重みを固定して変更しない)」と「コントローラーエージェント」の2つから成ります。コントローラーは各推論ステップで現在の思考トレースと「残り予算(トークン数の上限まであとどれだけあるか)」を観察し、次の推論戦略と推論器に渡す出だしフレーズを「ステアリングアクション」として出力します。推論器はそのフレーズに続けて思考を展開するため、コントローラーが推論の方向性を実質的に制御できます。
コントローラーの訓練は2段階で行われます。まず合成的に生成したステアリング軌跡(どの状況でどのアクションを取ったかの記録)を用いて初期化し、次にRL(Reinforcement Learning、強化学習)で最適化します。これにより、コントローラーは推論器と組み合わせて精度とコストのトレードオフを調整するポリシーを学習します。
論文の実験結果によると、ACTSは「完全に思考させた場合と同等の精度を維持しながら、トークン数を大幅に削減できる」とされています。さらに推論器やタスクが変わっても「精度と効率のトレードオフを制御可能」という汎化性能も確認されています。コードはGitHubで公開されています。
これからどうなるか
推論モデルのAPIコストは応答トークン数に比例します。ACTSのようなステアリング手法が実用化されれば、タスクの難易度に応じてトークン予算を動的に配分し、品質を落とさずにコストを抑える推論パイプラインを構築できます。
特に実用的なのは「ほぼ正解できる易しい問題には短い思考で済ませ、難しい問題には十分なトークンを割く」という自動調整です。既存のRAGシステムや多段階エージェントに組み込めば、APIコストの試算が変わり、費用対効果の高い運用設計につながるでしょう。
また、コントローラーが推論器に依存しない設計は、モデルを乗り換えても同じコントローラーを再利用できることを意味します。LLMプロバイダーが頻繁に新モデルをリリースする現在の状況では、保守コストを抑えるうえでも有効な分離設計と言えます。
まとめ
arXiv論文ACTSは、推論モデルを変更せずに外部コントローラーエージェントでCoT推論を操縦し、精度を維持しながらトークン消費を大幅に削減する手法を提案しました。推論APIのコスト管理と品質トレードオフを動的に制御したい開発者にとって注目の研究です。
参考リンク
アイキャッチ画像: Photo by Shubham Dhage on Unsplash

