TOPS：視覚トークン78%削減でMLLM性能を維持する第一原理的手法

視覚トークン（マルチモーダルAIが画像を処理する際に生成する数値表現の単位）の77.8%を削除しても、マルチモーダルLLM（テキストと画像を同時に扱う大規模言語モデル）の性能を100%維持できる——そんな手法「TOPS（Token Optimal Preservation Sets）」が発表されました。訓練不要かつモデル非依存の設計で、7種類のMLLMバックボーンと14の評価ベンチマークで有効性を確認しています。推論コストの大幅削減に加え、幻覚（ハルシネーション：AIが事実と異なる情報を生成する現象）の軽減効果も示唆されています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

近年のマルチモーダルAIは、GPT-4oやGemini 3.5 Flashなど、テキストと画像を同時に扱えるモデルが主流になっています。これらのモデルは画像を処理する際、視覚情報を多数の「視覚トークン」に変換します。問題は、このトークン数が膨大であることです。高解像度画像では数千のトークンが生成され、推論コストと遅延の主要因となっています。

これまでの視覚トークン削減（トークンプルーニング）手法には二つの主要なアプローチがありました。一つはアテンション（モデルがどの部分に注目するかを示す重みづけの仕組み）に基づく手法で、重要なトークンを残す一方で冗長なトークンも保持してしまう問題がありました。もう一つは多様性に基づく手法で、代表的なトークンを選ぶ半面、入力されたタスクの指示内容を考慮できない欠点がありました。

TOPSはこれらの問題を「情報理論（情報の量と質を数学的に扱う理論）に基づいたトップダウン分析」で解決しようとする試みです。

技術/ビジネス面

computer cables — Photo by Randall Bruder on Unsplash

TOPSは視覚トークンを選ぶ際に三つの原則を用います。①タスク関連性（入力されたタスクに関連するトークンを優先する）、②情報カバレッジ（画像全体の情報を偏りなくカバーする）、③意味的多様性（似た内容のトークンを重複して保持しない）——この三原則を同時に満たすトークン集合を「Token Optimal Preservation Sets」として定式化したのがTOPSの本質です。

特筆すべき点として、TOPSは「訓練不要かつモデル非依存」であることが挙げられます。新しいモデルごとに再訓練する必要がなく、LLaVA-NeXTやその他のMLLMにそのまま適用できます。実験では7Bパラメータのモデルで視覚トークンの77.8%を削除しながら性能を100.0%維持し、13Bモデルでは100.6%と削減によって性能が若干向上するケースも確認されています。7種類のMLLMバックボーンと14のベンチマーク（複数の評価タスクで構成されたテストスイート）で一貫した効果を示しており、再現性の高さも強みです。

開発者の視点では、API経由でマルチモーダルモデルを呼び出すコストに直接影響します。視覚トークンが78%減れば、推論時の入力コストがほぼ同割合で削減できる可能性があります。高解像度画像を大量処理するシステムや、リアルタイム応答が求められる用途で、実装コストの試算が大きく変わります。

これからどうなるか

TOPSが注目されるもう一つの理由は、トークン削減が幻覚軽減の可能性も示唆している点です。不必要な視覚情報を除去することで、モデルが無関係なトークンに引きずられる確率が下がるという仮説は直感的にも納得できます。ただし、この方向性の検証はまだ初期段階です。

訓練不要・モデル非依存という特性は、将来のモデルへの適用も容易にします。新しいMLLMが登場するたびに、そのままTOPSを適用してコスト削減の恩恵を受けられます。マルチモーダルAIをプロダクトに組み込んでいる開発者は、TOPSのような手法をミドルウェア層として導入することで、バックエンドモデルが変わっても効率化の仕組みを維持できるでしょう。