AI UltraQuant:4ビットKVキャッシュでエージェント推論を高速化
AMDチームのarXiv論文(2606.20474)がAIエージェントのKVキャッシュを4ビット圧縮するUltraQuantを発表しました。FP8比でP50初回応答時間を3.5倍短縮・出力スループットを1.6倍向上させており、長コンテキストの多ターンエージェントに特に効果的です。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI