AGC-Bench登場 83モデルでLLM創造性の一般因子発見

AI研究チームが2026年7月、LLM（Large Language Model、大規模言語モデル）の創造性を横断的に測る新しいベンチマーク「AGC-Bench」を発表しました。3,101本の関連論文と497個の既存ベンチマークを精査したうえで作られた大規模な評価基盤です。83個のLLMを対象に分析した結果、人間の知能テストで知られる「g因子」に似た、単一の「創造性因子」の存在が示されました。開発者にとっては、モデル選定の新しい判断材料になりそうです。

multicolored abstract painting representing creativity

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

創造性は「本当にひとつの能力なのか、それとも分野ごとに別物なのか」という問いは、心理学の世界で長年議論されてきました。文章を書く力と、数学の難問を解く発想力は、同じ「創造性」という言葉でくくれるのでしょうか。この問いはLLMにもそのまま当てはまります。物語を書かせる評価と、STEM（Science, Technology, Engineering, Mathematics：科学・技術・工学・数学の頭文字）の問題解決を測る評価は、これまでバラバラに存在していました。あるモデルが小説の続きを書くタスクで高得点でも、同じモデルが数式のひらめきを要する問題でも高得点かどうかは、実は誰も体系的に検証していなかったのです。

研究チームはこの状況を整理するため、既存の497個のベンチマークをHELM（Holistic Evaluation of Language Models：言語モデルを複数の観点から統一的に評価する枠組み）形式に揃え、1つの基盤にまとめました。カバーする領域はブレインストーミング、問題解決、STEM、物語創作、比喩表現、ユーモアの6分野、データセット数は78個に及びます。実行にはエージェント型のハーネス（複数のタスクを自動で回す実行基盤）を使い、モデルごとに同じ条件で全領域を横断的に評価できるようにしました。バラバラだった評価軸を、ひとつの物差しに統合した点が最大の特徴です。

技術/ビジネス面

採点の仕組みにも工夫があります。創造性の評価は人間の主観が入りやすく、採点者ごとに甘辛のブレが出やすい領域です。そこでチームは「AGC-Judge」という採点専用モデルを開発しました。オープンウェイトのQwen3-30Bをベースに、複数の最上位LLMによる評価結果を採点者ごとのクセを補正したうえで学習させています。この補正には項目反応理論を応用した「Judge Response Theory」という手法を使い、未知のベンチマークでも安定した採点ができるよう検証済みです。人間の採点者を多数雇わなくても、一定の信頼性で大量のモデル出力を評価できる仕組みを整えた点は、評価コストの面でも意味があります。

肝心の分析結果では、83個のLLMを因子分析にかけたところ、単一の「創造性因子c」が全体のばらつきの81.5%を説明することが分かりました。これは知能テストにおける一般知能因子「g」と似た構造です。ただし論文は、この創造性因子が知識力や論理的推論力とは「関連しつつも別物」だと強調しています。つまり、賢いモデルが必ずしも創造的とは限らないということです。もうひとつ興味深いのは、モデルに「創造的になって」と単純に指示するだけで、思考の連鎖を使う推論モードよりも高いスコアが出た点です。じっくり考えさせるほど独創性が失われ、無難な答えに収束してしまう傾向があるとみられ、創造性は必ずしも熟考によって伸びるわけではないと示唆しています。

これからどうなるか

AGC-Benchが整備されたことで、モデルごとの「得意な創造性の種類」が可視化しやすくなります。物語創作は得意だがユーモアは苦手、といった凹凸が数値で比較できるようになるわけです。コピーライティングや企画立案の補助ツールを作る開発者にとっては、用途に合ったモデルを選ぶ際の実用的な指標になるでしょう。またAGC-Judgeはオープンウェイトで公開されているため、自社サービスの生成物を独自に採点するパイプラインに組み込むといった応用も考えられます。例えば広告コピーのA/Bテスト候補を大量生成し、AGC-Judgeで一次スクリーニングしてから人間が最終選定する、といった使い方も現実的です。人間の上位層はまだLLMを上回るという結果も出ており、創作支援ツールでは「人間の最終チェック」を組み込む設計が当面は有効そうです。