NVIDIAが6月4日、長時間エージェントタスク向けに設計した大規模オープンウェイト推論モデル「Nemotron 3 Ultra」を公開しました。総パラメータ数550Bのうち、任意の推論パスで実際に動くのは55Bに絞ったMoE(Mixture of Experts:複数の専門化した小ネットワークに処理を分担させ、入力ごとに必要な部分だけ動かす仕組み)設計を採用しています。Artificial Analysis社の知能指数(Intelligence Index)では48を記録し、米国のオープンウェイトモデルとして最高値に達しました。商用利用が許可されるOpenMDW-1.1ライセンスのもとで公開されており、vLLMやSGLangを使って自社インフラに今すぐデプロイできます。
背景と文脈
大規模言語モデル(LLM:Large Language Model)の世界では、オープンウェイトモデル(重みデータを公開するモデル)とクローズドモデル(GPT-5.5やClaude Opus 4.8など、重みを非公開にするモデル)の二極構造が続いてきました。オープン側の代表格はMeta社のLlamaシリーズと中国のDeepSeek・Qwenシリーズで、米国産のオープンモデルは知能指数でやや後れを取る状況が続いていました。
その状況に正面から切り込んだのが、今回のNemotron 3 Ultraです。6月1日のComputex 2026基調講演でJensen Huang CEOが発表し、6月4日に重みデータとトレーニングレシピが公開されました。従来のNemotronシリーズはLlamaベースのファインチューニングモデルが中心でしたが、今回はNVIDIA独自設計のハイブリッドアーキテクチャを採用しており、出発点がまったく異なります。
アーキテクチャには、Mamba-2と呼ばれる状態空間モデル(SSM:シーケンスを固定サイズの状態として圧縮しながら処理し、長文でも計算コストが線形に抑えられる設計)とTransformerのAttention(入力全体を相互参照してトークン間の関係を捉える、標準的なLLMの設計)を組み合わせた「ハイブリッドMamba-Transformer」を使っています。長距離依存を効率よく捉えながら、膨大なコンテキストでも計算量が爆発しない設計が特徴です。
コンテキストウィンドウ(モデルが一度に参照できる文脈の量)は最大100万トークンです。長時間にわたるエージェントタスクで会話履歴や大量のドキュメントを保持しながら推論を続けられます。ライセンスはLinux Foundation傘下のOpenMDW-1.1で、商用利用・自己ホスティング・ファインチューニングが許可されています。
技術/ビジネス面

MoEアーキテクチャの核心は「90%のスパース性」にあります。全550Bパラメータのうち、あるフォワードパスで実際に使われるのは約55B(10%)だけです。入力トークンに応じて必要な「エキスパート」(専門化した小ネットワーク)を動的に選び出すため、密なモデル(Dense Model)と同等の表現力を理論上は10分の1の計算コストで実現できます。さらにMTP(Multi-Token Prediction:複数の将来トークンを同時予測するトレーニング手法)も組み込まれており、推論速度の向上に寄与しています。
スループット面での強みは顕著です。DeepInfraのプレリリースエンドポイントでは毎秒300トークン以上を記録しており、中国の競合オープンモデルであるDeepSeek V4 ProやKimi K2.6がAPIで50〜100トークン/秒程度しか出せないのと比べると、3〜6倍の速度です。レスポンスレイテンシが重要なリアルタイムアプリケーションでは、この差がユーザー体験に直結します。
一方で知能指数では、中国のKimi K2.6がNemotron 3 Ultraを6ポイント上回っています。速度面は圧倒的に勝っているものの、純粋な「賢さ」の面ではまだ中国勢がリードしている状況です。ハルシネーション(Hallucination:AIが事実に基づかない情報をもっともらしく生成する現象)の発生率を測るAA-Omniscienceスコアでは78.7を記録し、比較対象の中で最高値でした。コード生成や長文要約など、事実の正確さが求められるタスクへの適性が高いと言えます。
可用性の面では、HuggingFace、OpenRouter、ModelScope、NVIDIA NIMの4プラットフォームで即日公開されました。AWSのSageMaker JumpStartでも利用でき、既存のAWS環境に組み込みやすい状況です。自己ホスティングにはvLLM・SGLang・TRT-LLMが対応しており、NVIDIAのNeMoスタックでカスタムファインチューニングも可能です。
これからどうなるか
Nemotron 3 Ultraが開発者にとって最も実用的な意味を持つのは、「フロンティアに近い性能を自社インフラで動かせる」という選択肢が生まれた点です。GPT-5.5やClaude Opus 4.8のAPIを使う場合、コストはトークン単価で積み上がり、データを外部サーバーに送る必要があります。Nemotron 3 Ultraをオンプレミスや自社クラウドにデプロイすれば、データプライバシーを保ちながらコストをコントロールできます。
特にRAGパイプライン(RAG:Retrieval-Augmented Generation、検索拡張生成。外部の知識データベースを参照しながら回答を生成する手法)での活用が注目されます。100万トークンのコンテキストウィンドウがあれば、チャンク分割や複雑なベクトル検索の設計を大幅に簡略化し、大量のドキュメントをそのままコンテキストに詰め込むシンプルな構成も現実的になります。既存のRAGパイプラインでコンテキスト長の制限に悩んでいる場合、切り替えを検討する価値があります。
知能指数でKimi K2.6に差をつけられているという課題は残りますが、特定タスクへのファインチューニングで汎用ベンチマークの差を縮められるケースも多く、NeMoスタックを活用した用途特化チューニングが有効な場面は少なくないでしょう。米国のオープンウェイト競争が激化する中、NVIDIAが次世代Nemotronをいつ投入するかも注目点の一つです。
まとめ
NVIDIAのNemotron 3 Ultraは、米国最高水準のオープンウェイト推論モデルとして商用利用可能な形で公開されました。55Bアクティブパラメータと100万トークンのコンテキストウィンドウを持ち、スループットで中国勢を大幅に上回ります。自社インフラでの運用や大規模RAGパイプラインの構築を検討している開発者にとって、今すぐ試す価値のある選択肢が一つ増えました。
参考リンク
- Nemotron 3 Ultra announced: high-speed, leading US open weights intelligence – Artificial Analysis
- NVIDIA AI Releases Nemotron 3 Ultra – MarkTechPost
- NVIDIA Nemotron 3 Ultra on Amazon SageMaker JumpStart – AWS Blog
アイキャッチ画像: Photo by GuerrillaBuzz on Unsplash

