LLM推論チェーンを58%短縮する「選択的潜在思考」

大規模言語モデル（LLM、Large Language Model）の推論コストを大幅に削減する手法「Selective Latent Thinking（選択的潜在思考）」がarXivに公開されました。この論文は、Chain-of-Thought（CoT：問題を解く前に思考ステップを書き出す手法）による推論チェーンを58.4%短縮しながら、明示的なCoTと比べた精度低下をわずか2.8%に抑えることに成功しています。推論モデルのAPIコストが増え続けている開発者にとって、見逃せない進展です。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

LLMが難しい問題を解く際、CoTは回答精度を大幅に高める手法として定着しています。2024年以降、OpenAIのo1・o3シリーズやAnthropicのClaude 3.7 Sonnetなど「推論モデル」が普及し、内部で大量のトークンを消費して高精度な回答を出す設計が主流になりました。

しかし長い思考ステップはトークン数を消費し、APIコストと応答速度の両方を悪化させます。1回のリクエストで数千トークンの思考ステップが走るケースも珍しくなく、コスト意識の高い開発者には頭の痛い問題でした。

この課題への対策として注目されてきたのが「潜在推論（Latent Reasoning）」です。潜在推論は思考ステップを人間が読めるテキストではなくモデル内部のベクトル表現として処理するため、出力トークン数を大幅に削減できます。ただし精度が明示的なCoTより落ちるという弱点が残っていました。今回の「Selective Latent Thinking」は、この二者択一を打ち破るアプローチとして提案されています。著者はHui Xieら4名で、コードも公開済みです。

技術/ビジネス面

neural network computation visualization — Photo by Shubham Dhage on Unsplash

Selective Latent Thinkingが採用するのは「精度が重要な箇所は明示的に書き、冗長な部分は内部表現に圧縮する」という選別的戦略です。軽量デコーダによる予測と信頼度ベースのゲーティング機構を組み合わせた3フェーズの学習手順を実装しています。

まず通常のCoTで学習し、次に信頼度の高い推論ステップを潜在表現に置き換え、最後に全体を再最適化します。どのステップを潜在化するかを信頼度スコアで動的に判断するため、問題の難易度に応じて圧縮度合いを自動調整できます。簡単な問題では多くを圧縮し、難しい問題では明示的な思考ステップを多く残すというバランスが自動的に取れます。

評価結果は明確です。推論チェーンの長さを58.4%削減しながら、潜在推論ベースラインと比べて22.7%高い精度を達成しました。明示的なCoTとの精度差は2.8%にとどまっています。比較可能な圧縮率では従来の潜在推論手法を大幅に上回り、精度とコストのバランスが実用的なレベルに近づいています。

これからどうなるか

推論モデルの普及に伴い、トークンコスト最適化はますます重要な課題になります。RAG（Retrieval-Augmented Generation、検索結果をモデルに渡して回答精度を高める手法）パイプラインやコード生成など、長い推論チェーンを要するタスクのコスト試算が変わってくる可能性があります。手元のCI環境やエッジ端末で推論モデルを動かしているチームにとっては、この手法が示す「どこを潜在化するか」の設計思想が直接参考になります。

現時点ではarXivの論文段階であり、主要商用モデルへの実装には時間がかかります。ただしコードは公開されており、オープンウェイトモデルをベースにカスタム推論モデルを構築しているチームであれば、設計を取り込んだ試みがすぐに始められます。今後は数学・論理推論に加え、コーディングや長文要約での汎化性能の検証が進むことで、実用化のタイムラインも明確になってくるでしょう。