xMemory: The Research That Cuts AI Agent Token Costs by 50% — Without Losing Accuracy

9,000+

クエリあたりのトークン数
xMemory使用前

約4,700

クエリあたりのトークン数
xMemory使用後

約50%のトークン削減 + 精度向上

コスト削減とAIの賢さ向上を同時に実現する唯一のメモリーシステム

問題点：標準RAGがAIエージェントで失敗する理由

標準RAGは、多様なコンテンツを持つ大規模な文書データベース向けに設計されています。AIエージェントが扱うのはもっと難しいものです。チャンクが互いにほぼ重複する、連続的で相関性の高い会話の流れです。

柑橘類の問題：ユーザーが「私はオレンジが大好き」「私はみかんが好き」と言い、さらに別の機会に柑橘類とは何かについて話しました。標準RAGはこれらすべてを意味的に近いものとして扱い、「柑橘類の好み」に関するコピーを10個取得する一方、クエリに答えるために必要な実際のカテゴリ情報を見逃します。エージェントは既に持っているコンテキストを得られずに困窮します。

既存の修正策では状況が悪化する理由

エンジニアリングチームは通常、検索後のプルーニングや圧縮、つまり検索後にノイズをフィルタリングする方法に頼ります。もっともに聞こえます。しかし、これはAIエージェントでは失敗します。なぜなら、人間の対話は「時間的に絡み合っている」からです：

• 共参照：「それ」や「あれ」は以前のコンテキストを指す
• 省略：先行する文がなければ意味をなさない欠落語
• タイムライン依存性：順序が重要となる事実

プルーニングツールは誤って重要な会話の断片を削除します。AIは文脈を見失います。回答は支離滅裂になります。トークンに支払ったお金は無駄になります。

xMemory：4段階のメモリ階層

キングス・カレッジ・ロンドンとアラン・チューリング研究所の研究者がxMemoryを開発しました。これは、すべてをコンテキストに詰め込むのではなく、会話を検索可能な意味的階層に整理するフレームワークです。

テーマレベル

上位トピックとカテゴリ — 検索はここから

意味レベル

抽出された再利用可能な事実 — 核となる知識、重複なし

エピソードレベル

連続した会話の要約ブロック

生メッセージ

元の会話ストリーム

主要な革新：不確実性ゲーティング

💡 意味的類似性は候補生成のシグナルです。
不確実性は決定のシグナルです。

— Lin Gui, 共著者, キングス・カレッジ・ロンドン

従来のシステムは類似性のみに基づいて検索します。xMemoryは第2のゲートとして不確実性を追加します。候補を見つけた後、「これを追加することで本当に回答に対する不確実性が減るのか？」を問いかけます。そうでなければ停止します。これがxMemoryが少ないトークンでより高い精度を達成する理由です。

類似性は近くにあるものを教えます。不確実性はプロンプト予算内で実際に価値があるものを教えます。

xMemory vs 代替手法

システム	構造	冗長性	精度	コスト
フラットRAG（MemGPT）	生ログ	高	ドロップ	高
構造化RAG（A-MEM）	階層/グラフ	中	中程度	中
xMemory ⭐	4レベル＋不確実性ゲート	低	改善	-50%

コーディングエージェントへの影響

マルチセッションのワークフローを実行するAIコーディングエージェントにとって、xMemoryは直接的に適用できます：

✅ エージェントは、コンテキストを爆発させることなく、数時間から数日間にわたる作業で一貫したプロジェクトメモリを維持できます
✅ 以前のセッションの関連するコード決定を、全履歴を再注入することなく取得
✅ クエリあたりのトークン数削減＝APIコスト削減＋応答速度向上
✅ 無関係な会話が構造的に除外され、単なる刈り込みではないため、精度が向上

不要なトークンへの支払いをやめましょう。

AIメモリの未来は、より大きなコンテキストウィンドウではなく、よりスマートな検索です。xMemoryは、低コストと高品質な回答の両立が可能であることを証明しています。

研究: xMemory (arXiv:2602.02007) — King's College London & Alan Turing Institute | Via VentureBeat
タグ: #xMemory #AIResearch #TokenOptimization #CodingAgent #RAG #LLMMemory #FinOps #AI