AIエージェント

全部を覚えさせない方が、エージェントは強くなる——長く働くAIの『文脈管理』

2026/7/4

🤖 AIが下書き・人間が編集

長く働くAIエージェントで文脈を全部保持するより刈り込む方が良いことを示す棒グラフ。全履歴保持で完了率71%（148万トークン・14.6時間）、直近5件に刈り込みで79%（54万トークン・5.4時間）、刈り込み＋要約で91.6%（55万トークン・5.8時間）。文脈を減らすほど完了率が上がり、トークンと時間は約3分の1に。 — ※ 作図：AI（棒グラフ）。数値は出典より（arXiv:2606.10209、50課題・GPT-5）。文脈を減らすほど、完了率が上がりコストは下がった。

要点： 長く働くエージェントは、会話とツール呼び出しの履歴がどんどん膨らむ。素直に考えれば「全部覚えている方が賢い」はずだ。だが2026年5〜6月に出た独立した2本の研究は、逆を示した——履歴を全部保持するより、刈り込んで要約する方が、タスクの完了率が上がる。ある実験では、全履歴を渡すと完了率71%だったのに対し、直近5つのツール呼び出しだけに刈り込むと79%、さらに要約を足すと91.6%まで上がり、しかもトークンと実行時間は約3分の1に減った¹。もう一本は、その「捨て方」はエージェントの地力に合わせて変えるべきだと示す²。鍵は記憶を貯めることではなく、捨て方を設計することにある。

全部持たせると、かえって弱る

1本目「Less Context, Better Agents」は、50課題の経費処理ベンチマークを GPT-5 で回し、文脈の持たせ方を比べた¹。結果は明快だった。

全履歴を保持：完了率 71.0%（約148万トークン・14.6時間）
直近5つのツール呼び出しに刈り込み：79.0%（約54万トークン・5.4時間）
刈り込み＋要約：91.6%（約55万トークン・5.8時間）

膨らんだ履歴は、賢さの足しになるどころか注意を散らす。古い中間結果や関係の薄いやり取りが文脈に居座ると、モデルはいま解くべき仕事から気を逸らされる。直近の重要な手順だけを残し、それより前は要約に畳む——これだけで、完了率は上がり、コストは3分の1近くまで下がった。「全部盛り」は、精度でもコストでも最善ではなかった。

「捨て方」はエージェントの強さで変える

ただし、刈り込みは強くやればいいという単純な話でもない。2本目「AdaCoM」は、外部の小さなLLMに文脈管理そのものを学習させ（強化学習で「何を残し何を畳むか」を訓練）、Web検索や調査タスクで性能を上げた²。

この研究が見つけた勘所が「忠実さと信頼性のトレードオフ」だ。地力の高いエージェントは、文脈を忠実に残すほど得をする。逆に地力の低いエージェントは、思い切って圧縮して、扱える範囲に文脈を収めた方が安定する²。つまり、最適な刈り込みの強さは一律ではなく、動かすモデルの強さに合わせて決めるものだ。

実務で何が変わるか

長時間動くエージェントを組む側なら、勘所は絞れる。

全履歴を丸ごと渡さない。 直近の重要な手順＋それ以前の要約、という形が、全部盛りより完了率で勝つことがある¹。まず「刈り込み＋要約」を基準線に置くとよい。
残す基準は「タスクの制約と進捗」。 何を捨てるか迷ったら、目標・制約・ここまでの進捗は残し、役目を終えた中間出力は畳む。AdaCoM が性能を上げた要も、この「制約と進捗を保ちつつ、古い内容を刈る」だった²。
圧縮の強さはモデルの地力に合わせる。 強いモデルは残しめ、弱いモデルは刈り込みめ²。一律の設定を全機種に流用しない。
副産物のコスト減は大きい。 トークンと時間が3分の1になるなら、長時間タスクの運用費と待ち時間に直接効く¹。

長く働くエージェントで効くのは、より多く覚えさせることではなく、忘れ方をうまく設計することだった。どちらも2026年前半のプレプリント（査読前）だが、別々のチームが「減らす方が強い」を独立に測った点で、単発の主張より確度が高い。

出典

Abhilasha Lodha ほか, “Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents”（arXiv:2606.10209, 2026年6月8日公開）。50課題の経費処理ベンチマーク・GPT-5。全履歴保持=完了率71.0%（1,480,996トークン・14.56時間）、直近5ツール呼び出しに刈り込み=79.0%（535,274トークン・5.39時間）、刈り込み＋要約=91.6%（553,374トークン・5.79時間）。https://arxiv.org/abs/2606.10209 ↩ ↩² ↩³ ↩⁴
“Learning Agent-Compatible Context Management for Long-Horizon Tasks”（arXiv:2605.30785, 2026年5月29日公開）。凍結したエージェントの文脈を外部LLMが強化学習で管理する AdaCoM。タスクの制約と進捗を保ちつつ古い内容を刈ることで Web検索・調査タスクの性能を改善。「忠実さと信頼性のトレードオフ」＝地力の高いエージェントは高忠実な文脈保持が得、低いエージェントは積極的な圧縮で安定する。https://arxiv.org/abs/2605.30785 ↩ ↩² ↩³ ↩⁴ ↩⁵

この記事はAIが下書きし、人間が編集・公開しています。