LLMが知識を持っていても幻覚する理由

大規模言語モデル（LLM：Large Language Model）がなぜ事実と異なる内容を生成するのか。この「幻覚（ハルシネーション）」問題に新たな光を当てた論文がarXivに公開されました。研究チームは「ハルシネーションの主な原因は知識の欠如ではない」と示しており、LLMが正しい答えを確率的に「知っている」状態でも誤った出力が生じるケースが全体の16〜47%に達することを明らかにしました。この発見は、ハルシネーション対策の設計思想を根本から見直す可能性を持っています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

LLMのハルシネーション対策として、これまで主流だったアプローチは「知識を補う」方向のものでした。RAG（Retrieval-Augmented Generation：外部の知識ベースを検索して回答に活用する手法）によって最新情報を補完したり、ファインチューニング（fine-tuning：特定のタスクに合わせてモデルをさらに学習させること）でドメイン知識を追加学習させたりする方法です。

これらのアプローチは「モデルが知識を持っていないから嘘をつく」という前提に基づいています。しかし今回の研究は、この前提そのものに疑問を投げかけます。研究チームはQwen（テンセントが開発したLLMシリーズ）とLlama（Metaが開発したオープンソースLLMシリーズ）の0.8Bから72Bパラメータまでの複数モデルを対象に、正解概念が確率分布内にどの程度存在するかを測定しました。

従来の研究では、トークン（モデルが処理する最小単位のテキスト）レベルの正答率のみを評価するものが多く、同じ意味を表す複数の表現（例:「東京」「Tokyo」「首都」など）を正答として統合して評価できていませんでした。今回の研究では、同じ概念を表す複数の表現を統合する「意味的な正答可用性」という新しい評価指標を導入しています。

技術/ビジネス面

black laptop computer turned-on displaying source code — Photo by Jantine Doornbos on Unsplash

研究の核心的な発見は、ハルシネーションの16〜47%が「正解概念の確率質量がすでに十分に存在する状態」で起きているという点です。さらにモデルのスケール（パラメータ数）が大きくなるほど、このタイプのハルシネーション率が増加する傾向も確認されました。

正しく回答できた場合とハルシネーションが起きた場合を比較すると、確率分布の形が異なります。正しい出力では確率質量が一つの表現形式に集中（concentrate）していたのに対し、ハルシネーションでは複数の代替表現に確率が分散（disperse）していました。研究チームはこの現象を「コミットメント失敗（Commitment Failure）」と名付けています。

また、生成前の隠れ状態（hidden states：LLMの内部表現）を分析すると、出力されるテキストが生成される前の段階でこのコミットメント失敗が検出可能であることも示されました。インストラクションチューニング（instruction tuning：指示に従う能力を高めるための学習）はスケールに応じてコミットメントをより強化しますが、これが有益な自信のある回答と有害な確信を持ったハルシネーションを同時に生み出すメカニズムでもあることを示しています。

これからどうなるか

この発見が示す実践的な含意は大きいです。知識補完（RAGなど）だけでは、コミットメント失敗型のハルシネーションを防げません。今後の対策として有望なのは、生成前の隠れ状態を監視して確率の分散を検出するアプローチや、複数の回答候補を生成してコンセンサスを取るアンサンブル手法（ensemble：複数のモデルや出力を組み合わせて精度を高める手法）の活用が考えられます。

開発者にとっては、RAGパイプラインやファインチューニングへの投資だけで品質を担保しようとする設計の再考を促す研究です。特に、生成結果の検証レイヤーを別途設けることや、モデルが「確信を持って間違えるパターン」を出力検証の仕組みに組み込むことが重要になってきます。

研究レベルでは、この「意味的正答可用性」の評価枠組みが、ベンチマーク（benchmark：モデルの性能を標準化された方法で比較するためのテストセット）の設計を変える可能性もあります。MMLU（57分野の知識・推論を問う代表的ベンチマーク）のような既存の評価指標では捉えられていなかった側面を測定する新しい評価手法として注目されそうです。