Nvidiaの研究チームが、言語生成を約2.42倍高速化する新アーキテクチャNemotron-TwoTowerを発表しました。拡散言語モデル(diffusion LM:テキストをノイズから段階的に復元する生成方式)と自己回帰モデル(autoregressive model:前のトークンを元に次のトークンを生成する従来方式)を「2塔構成」で組み合わせることで、品質は自己回帰ベースラインの98.7%を維持しながら、生成スループットを2.42倍に引き上げることに成功しています。コードとモデル重みはオープンソースで公開されており、開発者が実際に試せる状態です。
背景と文脈
言語モデルの生成速度を上げるアプローチとして、量子化(quantization:モデルのパラメータを低精度で表現してメモリと演算量を削減する手法)やKVキャッシュ圧縮(key-value cache compression:過去のトークン情報を圧縮して再計算を省く手法)が広く研究されてきました。しかしこれらはいずれも既存の自己回帰アーキテクチャを前提とした最適化であり、根本的な生成方式の変革ではありません。
一方、拡散モデル(diffusion model)は画像生成の分野で革命をもたらしましたが、テキスト生成への応用は困難でした。理由は、拡散モデルが並列的にノイズ除去を行うため、「前のトークンに依存して次を生成する」自己回帰型の設計と相性が悪かったからです。この問題を解決するために様々な拡散言語モデルが提案されてきましたが、品質面では自己回帰モデルに及ばないケースが多く残っていました。
Nemotron-TwoTowerはこの課題に対し、「コンテキスト理解と生成を別の特化したモジュールに分担させる」という発想で挑んでいます。
技術/ビジネス面

TwoTowerの構成は「自己回帰タワー」と「拡散タワー」の2つです。自己回帰タワーは学習済みのパラメータを固定し(frozen)、クリーンなコンテキストトークンを因果的に処理する役割を担います。一方、拡散タワーは双方向のブロックアテンション(bidirectional block attention:近接するトークンブロック全体を相互参照してノイズを除去する仕組み)を持ち、クロスアテンションで自己回帰タワーのコンテキストを参照しながらノイズを含むトークンブロックを並列に精製します。
ベースモデルとして使われたNemotron-3-Nano-30B-A3Bは、Mamba(シーケンスを線形時間で処理できる状態空間モデル)とTransformerを組み合わせたハイブリッドMoE(Mixture of Experts、複数の小モデルに処理を分担させ入力ごとに必要な部分だけを動かす仕組み)の300億パラメータモデルで、約2.1兆トークンで学習されています。このベースを活かして拡散タワーを追加学習することで、既存の知識を損なわずに生成速度を高めています。
得られた2.42倍のウォールクロックスループット(wall-clock throughput:実際の経過時間あたりの生成トークン数)は、品質98.7%と引き換えに達成された数値です。ロスレス最適化ではなく、わずかな品質トレードオフを受け入れた上での高速化ですが、多くの実用場面では十分に受け入れられる範囲です。
これからどうなるか
TwoTowerの公開はLLM推論コストを直接引き下げる可能性を持ちます。推論の主なボトルネックはGPUあたりのトークン生成速度であり、同じハードウェアで2倍超の出力が出せれば、APIコストや応答レイテンシの改善に直結します。特にチャットボットや補完機能のような低レイテンシが求められる用途で効果が大きいでしょう。
開発者の観点では、Nvidiaが30Bという大型モデルのオープン重みを提供している点が重要です。NvidiaのTensorRTやTRITON推論サーバーとTwoTowerがどこまで統合されるかは今後の課題ですが、既存の推論インフラを活かしながら速度改善を図れる可能性があります。また、TwoTowerの考え方——「特化した役割を持つ複数のモジュールを組み合わせる」——は今後の言語モデルアーキテクチャ設計における一つの指針となるでしょう。拡散LMが実用的な品質に到達した事実は、次世代モデルの設計選択肢を広げます。
まとめ
Nemotron-TwoTowerは、拡散言語モデルと自己回帰モデルを2塔構成で組み合わせることで、品質98.7%を維持しながら生成速度を2.42倍に高めた研究です。オープンソース公開済みのため、推論コストの削減を検討している開発者はベンチマークを試す価値があります。
参考リンク
アイキャッチ画像: Photo by Akshar Dave🌻 on Unsplash

