DiffusionGemma公開 — Googleの拡散テキスト生成が4倍高速化

Googleが2026年6月、新しい実験的オープンモデル「DiffusionGemma」を公開しました。従来の言語モデルが1トークンずつ順番に出力するのと異なり、拡散（diffusion）という手法で256トークンを並列処理することで、専用GPUで最大4倍のテキスト生成速度を実現しています。Apache 2.0ライセンスで公開されており、開発者はHugging FaceやvLLMなど使い慣れたツールですぐに試せます。モデル品質はまだ実験的な段階ですが、高速ローカル推論を必要とする開発者にとって注目の選択肢が増えました。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

テキスト生成の速度ボトルネックは、長らく自己回帰（autoregressive）モデルのアーキテクチャ的な制約に起因してきました。自己回帰モデルとは、GPT-4やGemmaのように前のトークンを参照しながら次のトークンを一つずつ順番に生成する仕組みのことです。この逐次処理の性質が、ハードウェアの並列処理能力を活かしきれない根本的な制約をもたらしています。

画像生成の世界では、拡散モデル（diffusion model：ランダムなノイズから段階的に情報を復元する手法）がStable DiffusionやMidjourneyで広く普及しています。テキストへの応用は学術的に数年前から研究されてきましたが、品質面での課題もあって実用的なオープンモデルが登場するまでには至りませんでした。NvidiaのNemotron-TwoTowerが拡散と自己回帰を組み合わせる2塔構成を発表したのが直近の事例ですが、DiffusionGemmaはGoogleが初めてこれを単体の汎用オープンモデルとして公開した点で位置づけが異なります。

商用展開を考える企業や個人開発者にとって、オープンライセンスで高速なモデルが手に入ることは開発サイクルの短縮に直結します。これまで高速生成には大規模なクラウドインフラが必要でしたが、今回は量子化（quantization：モデルの精度を落として圧縮する手法）版が消費者向けGPUでも動作するという点が大きな変化です。ローカルで試せる選択肢が増えることは、プロトタイピングのコストを下げる実質的なメリットをもたらします。

技術/ビジネス面

black computer tower — Photo by Rainier Ridao on Unsplash

DiffusionGemmaは26BパラメータのMixture of Experts（MoE：複数の小モデルに処理を分担させ、入力ごとに必要な部分だけを動かす仕組み）アーキテクチャを採用しています。推論時に実際に動くパラメータは3.8Bにとどまるため、見かけのモデルサイズより大幅に軽量な動作が可能です。

生成速度はNVIDIA H100で毎秒1,000トークン以上、RTX 5090で700トークン以上を達成しています。同規模の自己回帰モデルと比べて最大4倍速く、チャットやコード補完などリアルタイム応答が求められる用途でのレイテンシ改善が期待できます。

技術的な核心は「双方向アテンション」（bidirectional attention：文章全体の前後文脈を同時に参照できる仕組み）を持つ256トークン並列処理にあります。自己回帰モデルは左から右へ一方向に生成するため、テキストの途中を書き直すインライン編集や、前後文脈を見ながら補完するコード補完が苦手でした。DiffusionGemmaの双方向構造はこうした非線形タスクに優位性を持ちます。

量子化版はVRAM 18GBで動作するため、RTX 4090クラスの民生GPUでもローカル実行が可能です。Apache 2.0ライセンスなので商用利用に制限がなく、Hugging Face、vLLM、MLXといった開発者向けエコシステムに対応しています。ただしGoogleは「最高品質が必要な本番環境ではGemma 4の使用を推奨する」と明記しており、現状はまだ実験的な位置づけです。

これからどうなるか

DiffusionGemmaの登場は、拡散型テキスト生成が学術的な実験段階から「使えるオープンモデル」へ移行したことを示しています。今後の焦点は、品質と速度のトレードオフをどこまで改善できるかです。現状ではGemma 4に品質面で劣るとされていますが、拡散モデルの訓練手法が成熟するにつれてこのギャップは縮まると予想されます。

開発者にとっての実務的な示唆として、既存のローカル推論パイプラインへの置き換え候補として検討価値があります。エージェントがループ内で大量のテキストを生成するシナリオや、リアルタイム応答が重要なチャットインターフェースでは、同じハードウェアコストで処理量を増やせる可能性があります。vLLMに対応しているため、既存の推論インフラをほぼそのままで移行できる点もメリットです。

テキスト拡散モデルの研究は今後も活発になるとみられます。双方向アテンションによるインライン編集の優位性は、コードエディタ統合やドキュメント生成など新たなユースケースを生む可能性があります。GoogleがDiffusionGemmaをGemmaシリーズにどう統合していくかが、今後の注視すべきポイントです。

まとめ

GoogleのDiffusionGemmaは、拡散モデルをテキスト生成に応用した26B MoEのオープンモデルです。H100で毎秒1,000トークン超の生成速度を実現し、消費者GPU（VRAM 18GB）でも動作します。Apache 2.0ライセンスで商用利用可能。現状は実験的段階ながら、高速ローカル推論を求める開発者の選択肢が広がりました。

参考リンク

DiffusionGemma: 4x faster text generation (Google Blog)

アイキャッチ画像: Photo by Brett Jordan on Unsplash