AIエージェントが過去のやり取りを記憶に保存して活用する「メモリ拡張型エージェント」が普及する中、その記憶ストアに悪意ある記録を混入させる攻撃手法が現実の脅威となっています。arXivに公開されたMemAuditは、この「記憶汚染攻撃」を事後に検知し無力化する新しいフレームワークです。QAエージェントへの攻撃成功率を70%からゼロに、推論型エージェントへの攻撃成功率を83.3%からゼロに低減する効果が示されました。
背景と文脈
LLMを使ったエージェントシステムでは、チャット履歴・タスク記録・ユーザーの好みなどを外部のメモリストアに保存し、次回以降のタスクで参照する設計が広まっています。RAG(Retrieval-Augmented Generation、外部知識を検索して生成に活かす手法)と組み合わせることで、長期的なコンテキストを保持しながら動作するエージェントが実現できます。
しかしこの「記憶」機能は新たな攻撃面を生み出します。攻撃者がエージェントとの通常のやり取りを通じて悪意ある情報を記憶に書き込み、後から別のタスクを実行する際にその記憶が参照されることで、エージェントの行動を意図的に歪めることができます。この手法はMINJA(Memory INJection Attack)と呼ばれ、直接メモリストアを書き換えずに、通常のクエリだけで実行できる点が検知を難しくしています。
既存のセキュリティ手法は主に「攻撃を事前に防ぐ」アプローチを取っていますが、MINJA型の攻撃は正規のインタラクションとして見分けがつきにくいため、フィルタリングによる事前防御が難しいという課題がありました。
技術/ビジネス面

MemAuditは2つの手法を組み合わせています。
1つ目は「反事実的メモリ影響スコア」です。各記憶レコードがなかった場合に最終出力がどう変わるかをシミュレーションし、有害な出力に対して異常に高い影響度を持つ記憶を特定します。通常の記憶はタスクに適切に貢献しますが、汚染された記憶は特定の有害出力に過度に寄与するという特性を利用します。
2つ目は「メモリ整合性グラフ」です。メモリストア内のレコード間の意味的関係をグラフ構造で表現し、グラフ上で孤立していたり、他のレコードと著しく異質なレコードを構造的な異常として検出します。
実験ではQAエージェントへのMINJA攻撃成功率が70%から0%へ、RAP(推論行動計画型エージェント)への攻撃成功率が83.3%から0%へと大幅に低下しました。いずれも事後検知、つまり有害な行動が一度観察された後に記憶ストアを監査するアプローチで達成された数値です。
これからどうなるか
メモリ拡張型エージェントの導入が本格化するにつれ、記憶汚染への対策はシステム設計の必須要件になるでしょう。顧客対応・社内ナレッジ管理・自律型コーディングエージェントなど、長期記憶を使うユースケースはすべてこの攻撃に晒されます。
MemAuditの事後検知アプローチは、既存のエージェントシステムに後付けで組み込める点が実用上の強みです。エージェントが不審な行動を示した際にメモリストアを自動監査する仕組みを追加するだけで、攻撃の影響範囲を大幅に限定できます。自社でエージェントシステムを構築している場合、MemAuditのアプローチをベースにした定期監査パイプラインを設計に組み込む価値があります。
今後の課題は、大規模なメモリストア(数万件以上のレコードを持つ本番環境)でのスケーラビリティ確保と、より高度な攻撃(複数の記録を分散させて単体では検知を逃れるもの)への対応です。
まとめ
MemAuditはAIエージェントの記憶ストアへの汚染攻撃を事後に検知・無力化するフレームワークです。反事実的スコアリングとグラフ構造解析を組み合わせ、QAおよび推論エージェントへの攻撃成功率をいずれも0%に低減しました。メモリ拡張型エージェントを実用化する際のセキュリティ設計に組み込みたいアプローチです。
参考リンク
アイキャッチ画像: Photo by Elena Mozhvilo on Unsplash

