LLM(Large Language Model、大規模言語モデル)が事実と異なる情報を生成する「幻覚(ハルシネーション)」は、これまで予測困難なランダム現象とみなされてきました。しかしarXivに2026年5月19日に公開された論文「Predictable Confabulations」は、幻覚の発生パターンがモデルのパラメータ数と学習データ内のトピック出現頻度という2変数で60〜94%説明できることを示しました。幻覚は「予測可能な現象」であるという視点は、LLMの信頼性評価と改善アプローチに新たな方向性をもたらします。
背景と文脈
LLMの幻覚問題は、実用化を阻む最大の障壁の一つです。医療・法律・金融など精度が求められる領域では、事実誤認が重大なリスクになります。そのため「どのモデルが幻覚を起こしやすいか」「どんなトピックで誤答が出やすいか」を事前に把握できれば、システム設計上の対策を打ちやすくなります。
これまでの幻覚研究の多くは、特定のベンチマーク(評価用テスト)での正答率を比較するものでした。しかしそれはあくまで現象の観察にとどまり、「なぜその幻覚が起きるのか」という根本的な問いには答えられていませんでした。今回の研究はその「なぜ」に迫る試みです。
研究チームは38のモデルを対象に、学術的な参照情報8,900件以上を使った事実確認テストを実施しました。モデルのパラメータ数(規模)と、学習データ内での各トピックの出現頻度を変数として、幻覚の発生パターンを統計的に分析しています。評価は自動化された検証システムを用いて大規模に行われました。
技術/ビジネス面
研究の核心は、モデルのファクトリコール(事実の想起)品質が「モデルのパラメータ数とトピックの出現頻度の対数線形組み合わせにおけるシグモイド関数に従う」という発見です。4つの異なるモデルファミリーの16種類のデンスモデル(すべての重みを常時使うタイプのモデル)で分散の60%、同一ファミリー内では74〜94%を説明できました。
研究チームはこれを「信号対雑音比フレームワーク」として整理しています。モデルが正確に事実を思い出すための「信号強度」は学習データ内のトピック出現頻度が高いほど強まります。一方で「ノイズフロア」はモデルの容量(パラメータ数)が増えるにつれて上昇します。つまり大きなモデルでも、学習データに少ししか登場しないトピックは幻覚が起きやすく、逆に小さなモデルでも頻出トピックなら正確な回答が期待できるという関係性です。
この枠組みは実用的な含意を持ちます。幻覚の発生確率がランダムではなく構造的な変数で決まるなら、あらかじめ「このトピックはこのモデルで幻覚が起きやすい」と予測できます。RAG(Retrieval-Augmented Generation、検索拡張生成:外部知識を検索して回答に組み込む手法)による補完や、特定ドメインへのファインチューニング(fine-tuning:特定タスク向けの追加学習)といった対策も、より的を絞った形で適用できます。
これからどうなるか
この研究が示す方向性は大きく二つです。一つは、幻覚の「地図」を事前に描けるようになること。特定のモデルと特定のドメインの組み合わせで幻覚リスクを定量化し、アプリケーション設計に反映できます。医療AI・法律AI・ファクトチェックツールなど、正確さが命題となるシステムでは特に有効な知見です。
もう一つは、モデル選定の基準が変わる可能性です。「大きいモデルほど幻覚が少ない」という直感的な理解は、ドメイン固有のデータ頻度を考慮すると必ずしも成り立ちません。自社ユースケースのトピック分布を学習データ頻度と照らし合わせることで、コストと精度のバランスを最適化できる可能性があります。
開発者にとって実務的な活用としては、まず自社アプリで頻出するトピックが主要LLMの学習データでどの程度カバーされているかを確認する習慣が有効です。頻度が低いと推定されるニッチ分野ではRAGや文書グラウンディング(参照文書を明示的に渡す手法)の適用優先度を上げることで、幻覚リスクを構造的に下げられます。
まとめ
LLMの幻覚はランダムではなく、モデルサイズと学習データ内のトピック出現頻度の組み合わせで60〜94%の分散が説明できるという研究結果が発表されました。幻覚を「予測可能な現象」として扱う枠組みは、モデル選定・RAG設計・ドメイン特化チューニングの判断基準を変える可能性があります。

