GPT-5.6 Sol、Cerebrasで750トークン/秒に

OpenAIは2026年6月26日にフロンティアモデル（各分野で最高水準の性能を持つ最新世代のAIモデル）「GPT-5.6 Sol」をプレビュー公開しました。さらに7月中には、AI半導体企業Cerebrasのウェハースケール半導体（シリコンウェハー1枚をほぼそのまま1個の巨大チップとして使う設計）上で、最大750トークン/秒という速度でこのモデルを提供開始すると発表しています。一般的なGPUクラスタでのフロンティアモデル推論は40〜120トークン/秒程度とされ、単純比較でも10倍前後の高速化です。提供はまず一部の企業に限定されます。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

GPT-5.6シリーズは、最上位モデルの「Sol」、バランス型の「Terra」、軽量で低価格な「Luna」の3モデルで構成されます。OpenAIの発表によると、Solはコーディング分野の評価基準であるTerminal-Bench 2.1（コマンドライン操作を通じた計画・実行・修正の能力を測るベンチマーク）で最高水準の成績を記録し、サイバーセキュリティ関連の長時間タスクでも従来モデルを上回る性能を示したとしています。現時点では政府の承認を得た約20社限定のプレビュー提供で、一般提供は数週間後を予定しています。

この段階でCerebrasとの連携が発表された点が注目に値します。近年のAI業界では、モデルの精度向上と並行して「推論速度」自体が競争軸になりつつあります。推論とは学習済みモデルに入力を渡して回答を生成する処理のことで、チャットやコーディング支援ツールの体感速度に直結します。GPUクラスタでの推論は既に大規模に実用化されていますが、Cerebrasは全く異なるハードウェア設計で追加の選択肢を示した形です。AESOP Academyの報道でも、この提携がAI推論市場における速度競争の新たな節目として取り上げられています。

技術/ビジネス面

a person holding up a piece of electronic equipment — Photo by Akshar Dave🌻 on Unsplash

Cerebrasのウェハースケール半導体は、シリコンウェハーを小さなチップに切り分けず、ほぼ丸ごと1個のプロセッサとして扱う設計です。数十万個の演算コアを1枚のチップ上に集積し、チップ内のメモリ帯域を極端に広く確保しています。文章生成では1トークン（単語や文字の断片など、モデルが処理する最小単位）ずつ順番に出力する処理を繰り返すため、モデルの重み（学習済みパラメータ）を何度も読み出す必要があり、ここがGPUでは速度のボトルネックになりがちです。ウェハー内で完結する広帯域メモリはこの制約を緩和し、同じモデルの重みでも読み出しを高速化できます。Cerebrasはこれまでも複数のオープンモデルを自社チップ上で動かし、GPU比で数倍の速度を出してきた実績があり、今回のOpenAIとの提携はその延長線上にある取り組みです。

OpenAIとCerebrasの発表では、GPT-5.6 Solを最大750トークン/秒で動かせるとしています。一般的なGPUクラスタでのフロンティアモデル推論が40〜120トークン/秒程度である現状と比べると、約10倍の差です。ただし現時点でCerebras提供分の料金は公表されておらず、通常のAPI経由のGPT-5.6 Sol（100万トークンあたり入力5ドル・出力30ドル）とは別体系になる可能性があります。提供もまず一部の企業に限られるため、一般開発者がすぐに使える段階ではありません。OpenAIは容量を拡大しながら対象企業を広げていく方針を示しており、今後数カ月でどこまで対象が広がるかが焦点になりそうです。

これからどうなるか

推論速度が10倍近くなると、AIの使い方そのものが変わってきます。現状のエージェント（AIが複数の処理を自律的に連続実行する仕組み）は、モデルの応答を待つ時間が長く、体感速度を犠牲にして精度を優先する設計が多く見られます。速度が上がれば、1回のタスクの中で下書き・検証・修正を何度も繰り返すような使い方が現実的になり、音声対話やリアルタイム補助のような用途でも待ち時間のストレスが減ります。

開発者にとっては、CIパイプラインでのコード生成や大量ドキュメントの一括処理など、これまで速度がボトルネックになっていた場面で選択肢が広がる可能性があります。現時点は限定提供のため自分のプロダクトにすぐ組み込める話ではありませんが、料金体系や一般提供の時期が明らかになった段階で、既存のGPU推論ベースの構成と比較検討する価値は出てきそうです。特に応答速度が体験の質を左右するチャットボットや音声アシスタントの開発者にとっては、無視できない選択肢になっていく可能性があります。