AI・信頼性・評価

なぜエージェントは「デモは凄いが実用は脆い」のか——掛け算の残酷さ

2026/6/21 シリーズ「AIエージェントは、実際どう動くのか」第4回 / 全4回

🤖 AIが下書き・人間が編集

エージェントは「ループ」「ハーネス」「コンテキスト」で動く。仕組みとしては、これで十分だ。デモを見れば、まるで万能の助手に見える。だが——デモは魔法のようなのに、実際の長い仕事に乗せると、ぼろぼろ崩れる。これがエージェントの最大の現実である。その正体を、忖度なく数字で明かす。

正体は、製造業とまったく同じ「掛け算」

理由は、賢さの不足ではない。掛け算である。エージェントは、考える→動く→観察するを、何十回も繰り返す。仮に各ステップが95%の確率で成功する、優秀なエージェントを考えよう。一見、頼もしい数字だ。でも——

10ステップ続けば：0.95 の10乗＝約 59%
20ステップ続けば：0.95 の20乗＝約 36%

各ステップ95%でも、20回つなぐと、成功率は4割を切る。これは、製造業でいう「歩留まり」とまったく同じ数学である。1000工程の半導体が、各工程の小さな不良率で全体が崩れるように、長いエージェントの連鎖も、各ステップの小さな失敗が掛け算で積み上がって崩れる。長く動かすほど、確実に崩れるのだ。

各ステップ95%でも、10ステップで約59%、20ステップで約36%。99%なら30ステップでも約74%、90%なら約4%。1ステップの確かさが、長い連鎖の成否を分ける。

しかも、現実は「掛け算」より悪い

話はもっと厳しい。実際のエージェントの失敗は、単純な掛け算よりも速く崩れる。理由は、失敗が次の失敗を呼ぶから。一度まちがった行動をとると、その誤りが文脈という“机”に残り、それを見たAIは、さらにまちがえやすくなる。Sinha らの2025年の研究は、これを「自己条件付け（self-conditioning）」と呼び、長い実行で精度が落ちる主因は推論能力の限界ではなく“実行”でのつまずきにある、と報告している¹。一歩のミスが、雪だるま式に効いてくる——ただしこれは比較的新しい一つの枠組みで、まだ定説として確立したものではない。

数字で見る「脆さ」——本番の自律完遂は、まだ難しい

現実的なタスクのベンチマーク（評価）を、正直に置く。登場直後（2023年）の数字は厳しいものだった——WebArena（実際のウェブ操作）は、人間が約78%こなすところ、最良のエージェントが約14%²。GAIA（一般的なアシスタント課題）は、人間92%に対し約15%³。では、もっと現実に近い「自律的な仕事」はどうか。2024年末に公開された手強いベンチマーク TheAgentCompany（模擬的な会社業務175課題）でも、最良のモデルが自律で完全に終えられたのは約30%だった⁴。派手な一発はできても、現実の多段の業務を、人手を借りずに最後まで通すのは、まだ難しい——これが「デモは凄いが実用は脆い」の、いまの正直な姿だ。

それでも、伸びは本物だ——「脆いが、速い」

ここで絶望するのは早い。掛け算は残酷だが、裏を返せば——各ステップの成功率がほんの少し上がるだけで、こなせるタスクの長さは指数的に伸びる。事実、ベンチマークの成績はこの1〜2年で大きく伸びた（WebArena は2025年に約60%超の報告もある²）。より長期の傾向としては、METR が「（ソフトウェア開発タスクで）50%の信頼性でこなせるタスクの長さ」を継続的に計測している。それは倍々で伸びてきた——当初 METR は約7ヶ月ごとの倍化と報告したが、同団体の2026年の改訂では、2023年以降は約4ヶ月、2024年以降は約3ヶ月と、倍化はむしろ加速している⁵。「脆いが、急速に伸びている」が、いちばん正直な現在地だ。（ただし、この傾向を「数年で月単位の仕事を自動化」と外挿する予測には、もっともな批判もある。傾向は事実、外挿は議論中、と分けて見るべきだ⁵。）

ただし、その数字も「測り方」しだいで動く

最後に、ここまで挙げた数字すべてに一つ注釈を付けておく。プリンストン大学の Kapoor らは “AI Agents That Matter” で、エージェント評価そのものの欠陥を指摘している——単純なベースラインが複雑なエージェントを約50倍低コストで上回ることがある／結果が再現できない／コストを無視して精度だけを競っている⁶。つまり、ベンチマークの成績は評価の足場しだいで動く。「すごい」と言われる成績ほど、条件を確かめてから受け取るべきだ。

本当の急所は、「賢さ」より「各ステップの確かさ」

ここから得られる結論は、はっきりしている。エージェントを実用に耐えさせる鍵は、より賢いモデルだけではない。掛け算に勝つには、各ステップの確かさ（信頼性）を上げ、まちがえたら気づいて立て直す——つまり検証と誤り回復こそが本丸である。これは「生成より検証」そのものであり、ハーネス（モデルを支える足場）が支える部分でもある。派手な一歩より、地味な“各歩の確かさ”。製造業が歩留まりに執念を燃やすのと、同じだ。

出典

自己条件付け（self-conditioning）：A. Sinha et al., “The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs”, arXiv:2509.09677 (2025)。長い実行での精度低下は推論力でなく実行の誤りが主因、文脈中の過去の誤りが次の誤りを誘発、と報告。掛け算（p のN乗）は初等的な確率。 https://arxiv.org/abs/2509.09677 ↩
WebArena：arXiv:2307.13854 (2023)。登場時（2023年）の数字＝人間78.24%、最良GPT-4エージェント14.41%。その後改善し2025年には約60%超の報告もある（出発点として引用）。 https://arxiv.org/abs/2307.13854 ↩ ↩²
GAIA：arXiv:2311.12983 (2023)。登場時（2023年）＝人間92%、GPT-4＋プラグイン15%。その後改善（出発点として引用）。なお、これらベンチマークは攻略・漏洩で水増しされうるとの指摘もある（UC Berkeley RDI, 2025）。 https://arxiv.org/abs/2311.12983 ↩
TheAgentCompany：arXiv:2412.14161 (2024)。最も competitive なagentで自律完了約30%。 https://arxiv.org/abs/2412.14161 ↩
METR, “Measuring AI Ability to Complete Long Software Tasks”, arXiv:2503.14499 (2025)。ソフトウェア開発タスクで「50%信頼性タスク時間地平」が倍化する傾向。当初は約7ヶ月ごととされたが、METR の2026年改訂（Time Horizon 1.1, 2026-01-29）では、2019〜2025年通算で約6.3ヶ月、2023年以降は約4.3ヶ月、2024年以降は約3ヶ月と、倍化が加速していると報告された。傾向は事実だが、これを「数年で月単位の仕事を自動化」と外挿する予測には議論がある。 https://arxiv.org/abs/2503.14499 https://metr.org/blog/2026-1-29-time-horizon-1-1/ ↩ ↩²
“AI Agents That Matter”：S. Kapoor et al. (Princeton), arXiv:2407.01502 (2024)。単純ベースラインが約50倍低コストで上回りうる・非再現性・コスト無視の評価。 https://arxiv.org/abs/2407.01502 ↩

この記事はAIが下書きし、人間が編集・公開しています。