LLM組み合わせの天井：67モデル研究が示す根本的な限界

LLM（Large Language Model、大規模言語モデル）を複数組み合わせて精度を上げる手法は広く使われていますが、その効果に根本的な上限があることを示す論文が公開されました。「When Does Combining Language Models Help?」（Josef Chen著）は、21プロバイダーの67モデルを横断して評価し、「共同失敗の天井（Co-Failure Ceiling）」という概念を提案します。どのモデルも同じ問いで同時に失敗する現象が起きると、ルーティング・投票・モデルの混合（Mixture-of-Agents）のいずれを使っても正解率は回復できない——この限界が開発者にとって重要な示唆を持ちます。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

複数のLLMを組み合わせてそれぞれの強みを補完させる手法は、AIシステムの信頼性を高める現実的なアプローチとして注目されてきました。モデルのルーティング（入力内容に応じて最適なモデルを選ぶ仕組み）、投票（複数モデルの出力から多数決で答えを選ぶ）、Mixture-of-Agents（MoA：複数の専門モデルに処理を分担させ結果を統合する仕組み）といった手法が実用化され、単一モデルの限界を補うとされてきました。

この考え方の前提には「モデルAが失敗するところでモデルBが正解する」という相補性があります。しかし現実には、複数のモデルが同じ種類の問いで同時に誤答するケースが予想以上に多い可能性があります。従来の評価指標——ペアワイズ誤差相関（ρ：2つのモデルが同じ問いで誤る頻度の統計的な連動性）——はこの問題を十分に捉えられていませんでした。

今回の研究は、そうした組み合わせ手法の実力を67モデルという大規模なスコープで再評価し、期待と現実のギャップを定量的に示した点で意義があります。

技術/ビジネス面

graphical user interface — Photo by 2H Media on Unsplash

論文が示す核心的な数式は「精度の上限 = 1 − β」です。βは「全モデルが同じ問いで同時に失敗する確率」を指し、この値が大きいほど組み合わせの恩恵が小さくなります。数学の自由記述問題ではβの実測値が0.052で、予測値の0.023の約2.5倍に達しました。コード実行ベースの問いでは0.079と、さらに高い値が観測されています。つまり既存の手法はこのβをかなり過小評価しており、「組み合わせれば改善する」という期待を裏切る形になります。

また、同じ誤差相関（ρ）を持つモデルの組み合わせでも、共同失敗率βが大きく異なるケースがあることも判明しました。これは「ρが低いから相補的なはず」という従来の選択基準が不十分であることを意味します。実験では、多様性の高い異種モデルのアンサンブルが、同質的な高相関モデルのSelf-MoA（同一モデルの複数インスタンスを組み合わせる手法）を上回る結果となりました。

さらに、同じモデルでも回答フォーマット（選択肢形式か自由記述か）によって共同失敗率が変わることが示されました。これは、失敗パターンが「知識の有無」よりも「問われ方の形式」に強く左右されることを意味します。

これからどうなるか

実務的な影響はモデルアンサンブルを使うすべての開発者に及びます。「複数モデルを並べれば精度が上がる」という思い込みを持ったままシステムを設計すると、コストが増えるだけで期待した改善が得られない可能性があります。ルーターや投票システムを既存のパイプラインに組み込む前に、「各モデルがどんな問いで同時に失敗するか」を実測する工程が重要です。

今後の研究方向として、βを直接最小化するようにモデルを選択・ファインチューニング（fine-tuning：特定タスク向けに学習済みモデルを追加学習する手法）する手法が注目されるでしょう。また、問いの形式をモデル側で調整することで共同失敗率を下げる可能性も示唆されており、プロンプト設計が評価指標に影響することを念頭に置く必要があります。RAG（Retrieval-Augmented Generation、検索拡張生成：関連文書を検索してLLMの回答精度を補強する手法）パイプラインでも、複数モデルを組み合わせる構成を採用している場合は、この観点からの再評価が有効かもしれません。