元Samsung・SK Hynix出身者が2022年に創業した韓国スタートアップXCENAが、シリーズBで1億3,500万ドル(評価額5億7,000万ドル)を調達しました。同社の主張は「AI推論のボトルネックはGPUではなくメモリ帯域幅だ」というものです。独自のCXL(Compute Express Link:CPUとメモリ間の高速データ転送規格)対応チップMX1を開発しており、Samsungの製造ラインで2026年末に量産を開始する予定です。
背景と文脈
AI推論(inference:モデルが入力を受け取って回答を生成するプロセス)の処理フローは「メモリ → CPU(前処理)→ GPU(計算)→ メモリ(結果格納)」という往復を繰り返します。大規模言語モデル(LLM)はパラメータ数が数十億〜数千億に達するため、1トークンを生成するたびにGPUは膨大なデータをメモリから読み込まなければなりません。
GPUの演算性能は過去10年で著しく向上しましたが、DRAMの帯域幅の伸びはそれに追いついていません。Nvidia H100 GPUの理論演算能力はFP16で約2,000TFLOPS(テラFLOPS:1秒あたり1兆回の浮動小数点演算)ですが、HBM3メモリの読み書き帯域幅は約3TB/sにとどまります。大規模モデルでは演算より先にデータ転送が詰まる「メモリウォール」と呼ばれる問題が顕在化しています。
XCENAはSK HynixでHBM(High Bandwidth Memory:GPU向け高帯域幅メモリ)の開発に携わったJin Kim CEOが率いており、業界の構造的課題を内側から見てきた立場から問題に取り組んでいます。同氏は「CPUとGPUは何十年もかけて賢くなった。メモリは一度もそうならなかった」と述べています。
技術/ビジネス面

XCENAが開発するMX1チップは、CXLを使ってDRAM上に数千のRISC-V(ライセンスフリーの命令セットアーキテクチャ)コアを搭載した「コンピュート近接メモリ(Compute-Near-Memory)」アーキテクチャを採用しています。
従来のフローでGPUが担っていたKVキャッシュ管理(transformerが過去のトークン履歴を格納する構造)や前処理タスクをメモリ側で処理することで、GPUへのデータ転送量を大幅に削減します。同社は「MX1搭載サーバー1台が、従来の推論用サーバー10台分の処理をこなせる」と主張しています。
量産チップはSamsungの製造ラインで2026年末に開始予定で、収益化は2027年を見込んでいます。今回のシリーズBはAtinum Investment主導で、IMM Investment・LB Investmentが既存投資家として参加しました。累計調達額は1億8,500万ドルです。
なお今回の調達でSamsungとSK HynixはAnthropicのシリーズHにも参加しており、メモリ業界全体がAIインフラへの戦略的関与を強める動きが鮮明です。
これからどうなるか
2026年末の量産開始が実現すれば、大規模推論クラスタを運営するクラウドプロバイダーがMX1を採用するかどうかが次の焦点となります。
開発者にとって直接的な恩恵は当面ありませんが、LLMのAPIをバックエンドに組み込むサービスを構築しているチームは注視する価値があります。同社の主張どおりに推論効率が向上すれば、クラウドプロバイダーのAI推論コストが下がり、APIの単価低下として使用者に還元される可能性があるためです。
「GPU不足」と並ぶ「メモリ帯域幅不足」という視点は、今後のAIインフラ設計の重要な論点になります。LLMを組み込むシステムを設計する際には、コンピュート量だけでなくメモリ帯域幅も性能見積もりの変数に加えておくとよいでしょう。
まとめ
XCENAはGPUではなくメモリをAI推論のボトルネックと捉え、$135M調達でCXL対応チップMX1の量産を目指しています。Samsung製造・2026年末開始が実現すれば、AIインフラのコスト構造が変わる可能性があります。
参考リンク
アイキャッチ画像: Photo by Akshar Dave🌻 on Unsplash

