Agents-A1(35B)が兆パラメータ級モデルと同等性能を達成した手法

a black and white photo of a wall AI

2026年6月29日、InternScienceの研究チーム(Lei Bai氏ら50名以上)が論文「Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent」を公開しました。35BパラメータのMixture-of-Experts(MoE:複数の専門家サブネットワークを入力に応じて動的に選択するアーキテクチャ)モデルであるAgents-A1が、Kimi-K2.6やDeepSeek-V4-proといった兆(1兆=1,000億以上)パラメータ規模のシステムと競合する性能を示しています。パラメータ数を増やすのではなく、エージェントの推論軌跡を長くすることで性能を引き出すというアプローチは、AI研究の方向性に重要な示唆を与えます。

背景と文脈

近年のLLM(Large Language Model、大規模言語モデル)研究は、スケーリング則(scaling law:モデルのパラメータ数・データ量・計算量を増やすと性能が向上するという経験則)に従い、モデルの巨大化を競ってきました。GPT-4やGemini Ultra、Kimi-K2などはいずれも数千億から兆パラメータ規模とされており、推論コストも膨大です。一方で、そのような巨大モデルを自社インフラで動かすことは、多くの開発者や組織にとって現実的ではありません。

この流れに対してAgents-A1が提案するのは「水平方向のスケーリング」です。パラメータを増やすのではなく、エージェントが一度の推論で使えるトークン長(文脈窓)を大幅に伸ばし、外部知識の参照や検証ステップを組み込むことで、より深い思考を実現します。平均4万5千トークンに及ぶ長大な推論軌跡(trajectory)を扱えるインフラを整備し、そこで学習させることが中核的なアイデアです。

また、6つの異種ドメインにまたがる専門知識を単一モデルに収めるという課題も解決する必要がありました。科学、数学、コーディング、情報検索など、要求される能力が大きく異なる領域を一つのモデルで扱うのは難しく、従来はドメインごとに個別のモデルを用意することが多かったのです。

技術/ビジネス面

a close up of a sheet of paper with numbers on it
Photo by Bozhin Karaivanov on Unsplash

Agents-A1の学習は三段階で構成されます。第一段階では全ドメインを対象とした教師あり微調整(SFT:Supervised Fine-Tuning、正解データを用いてモデルを特定タスクに適応させる手法)を実施し、幅広い行動パターンを習得させます。第二段階では、各ドメインに特化したドメイン教師モデルを個別に訓練します。これらの教師モデルは、それぞれの専門領域で最高品質の推論データを生成する役割を担います。

第三段階が本手法の核心で、多教師ドメインルーティング蒸留(multi-teacher domain-routed distillation)と呼ばれます。蒸留(distillation:大きなモデルや高性能モデルの出力を教師データとして使い、小型モデルを訓練する手法)の仕組みを使いつつ、入力のドメインに応じて適切な教師モデルからの知識を選択的に注入します。さらに語彙アライメント処理を経て、異なる教師由来の知識を一つのモデルに統合します。

外部知識の統合と検証ステップも重要な特徴です。エージェントは推論中にウェブ検索や文書参照といったアクションを実行し、その結果を観察として取り込みます。ベンチマーク結果では、SEAL-0(長文理解・エージェント能力を測る評価)で56.4点、FrontierScience-Olympiad(最先端科学問題の解答能力を測る評価)で79.0点、BrowseComp(ウェブ閲覧を伴う情報収集能力を測る評価)で75.5点を達成しました。モデルの重みと評価コードはHugging FaceおよびGitHubで公開されており、誰でも利用・検証できます。

これからどうなるか

Agents-A1が示したのは「少ないパラメータでも、より賢く使えば大きなモデルに追いつける」という可能性です。この方向性が広まれば、兆パラメータ規模の投資をせずとも競争力のあるエージェントを構築できる道が開けます。特に、専門領域ごとに教師モデルを育てて蒸留するパイプラインは、社内文書・コードベース・業務フローといった特定ドメインにも応用できる実践的な手法です。

開発者にとっての直接的な恩恵は、35B規模のモデルがローカルまたはコスト効率の良いクラウド環境で動かせる点にあります。自社のコードリポジトリやAPIドキュメントを外部知識として組み込んだエージェントを構築する際、Agents-A1のアーキテクチャ設計は参考になります。長いコンテキスト上でデバッグ・テスト生成・コードレビューを一連の軌跡として処理するエージェントを、より小さなモデルで実現できる可能性があります。オープンウェイトとして公開されているため、コミュニティによる改善や派生研究も期待されます。

まとめ

Agents-A1は、35BパラメータのMoEモデルでありながら兆パラメータ級システムと同等の性能を達成しました。平均4万5千トークンの長い推論軌跡、外部知識の統合、多段階蒸留の組み合わせが鍵です。モデルはオープンウェイトで公開されており、実験や応用開発をすぐに始められます。

参考リンク

アイキャッチ画像: Photo by Google DeepMind on Unsplash

タイトルとURLをコピーしました