線形アテンションに厳密メモリのHOLA、困惑度22.92達成

線形アテンションを使う高速なAIモデルは、長文を扱っても計算量が増えにくい一方、過去の細かい事実を忘れやすい弱点を抱えていました。研究者のWanyun Cui氏は7月2日、この弱点を補う手法「HOLA」を提案した論文A Hippocampus for Linear Attentionを公開しました。予測が外れやすい情報だけを厳密に記憶する小さなキャッシュを追加し、3.4億パラメータの小型モデルで従来型Transformerを上回る精度を達成しています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

Transformer型のAIは文章が長くなるほど計算量とメモリ使用量が二乗で増えるため、長文を扱うと処理コストが急激に膨らみます。会話履歴やコードベース全体を読み込ませる用途が増えるにつれ、この重さが実用上の壁になってきました。これに対し線形アテンション（Linear Attention、系列長に比例した計算量で済むアテンション手法）は、Mambaなど状態空間モデル（State Space Model、直前までの情報を固定サイズの内部状態に要約して扱う仕組み）と合わせ、長文処理を安く高速にする技術として注目されてきました。

ただし固定サイズの状態に情報を圧縮する以上、容量には限界があります。新しい情報を書き込むたびに、重要度が低いとみなされた過去の情報が上書きされ、文書の前半に出てきた固有名詞や数値といった厳密な事実を後半で正確に思い出せない問題が起きていました。これは「破滅的忘却」と呼ばれる現象です。線形アテンション系モデルは長文の要約や大まかな文脈把握は得意でも、ピンポイントな事実検索は苦手とされてきました。

この弱点を避けるため、一部の層だけ通常のTransformer型アテンションを残す「ハイブリッド構成」も使われてきましたが、結局は重い計算を部分的に抱え込む妥協案に過ぎません。純粋な線形アテンションのまま、正確な記憶力も両立させることが、この分野の長年の課題として残っていました。

技術/ビジネス面

green and black circuit board — Photo by Akshar Dave🌻 on Unsplash

Wanyun Cui氏が提案したHOLA（Hippocampus for Linear Attention）は、通常の圧縮型の内部状態に加え、容量を制限した「厳密キャッシュ」を追加する仕組みです。名称は海馬（hippocampus）に由来し、出来事を鮮明に記憶する脳の働きになぞらえています。

ポイントは、どのトークンをキャッシュに残すかの選び方です。HOLAは各トークンについて、圧縮済みの状態だけで次の単語をどれだけ正確に予測できたかを計算し、予測の誤差（残差）が大きいトークンだけを選んで保存します。圧縮状態がうまく捉えられなかった情報だけを厳密な形で残すため、キャッシュを小さく保ったまま忘却を防げます。

著者は3.4億パラメータ、150億トークンで学習したモデルで効果を検証しました。次の単語をどれだけ正確に予測できるかを示す指標パープレキシティ（perplexity、数値が低いほど予測精度が高い）は、Wikitextで比較対象のTransformer++が26.88だったのに対し、HOLAは22.92まで改善しています。長文から特定の事実を探し出す能力を測るRULERベンチマーク（RULER benchmark、長文中に埋め込んだ情報を正しく取り出せるかを測定するテスト）のneedle-in-a-haystack形式（長文中に紛れ込ませた1つの事実を見つけ出せるかを試す方式）の評価でも、学習時の16倍にあたる32,000トークンの長さで、ベースラインのGDNより大幅に高い精度を維持しました。

これからどうなるか

HOLAはまだ3.4億パラメータの実験規模での検証で、数百億パラメータ級の商用モデルでも同じ効果が出るかは今後の追試が必要です。とはいえ、追加パラメータがわずかな「後付けの記憶モジュール」でここまで忘却を抑えられた点は、線形アテンション系アーキテクチャの実用性を押し上げる材料になります。学習済みモデルへの組み込みやすさも実用面での注目点です。

長いドキュメントやコードベース全体を読み込ませるツールを開発する際、これまでは処理コストの低い線形アテンション系モデルか、正確な記憶が期待できるフルアテンション型Transformerかを選ぶ必要がありました。HOLAのような仕組みが実用化されれば、推論コストとメモリ使用量を抑えたまま長文中の細かい仕様や過去のやり取りを正確に参照でき、自作の長文要約・検索ツールで採用する推論バックエンドの選び方や、ハイブリッド構成にかけていたコストの見直しにつながる可能性があります。

まとめ

HOLAは線形アテンションの圧縮状態に、予測が外れやすい情報だけを残す厳密キャッシュを加える手法です。3.4億パラメータ・150億トークンの検証でWikitextの困惑度を26.88から22.92へ改善し、学習時16倍の32,000トークンの長文検索でも高い精度を維持しました。効率と正確な記憶の両立に向けた、小さくても具体的な一歩といえるでしょう。

参考リンク

A Hippocampus for Linear Attention: An Exact Memory for What the Recurrent State Forgets

アイキャッチ画像: Photo by Nathaniel Shuman on Unsplash