In Silico

AI・信頼性・評価

なぜエージェントは「デモは凄いが実用は脆い」のか——掛け算の残酷さ

2026/6/21 シリーズ「AIエージェントは、実際どう動くのか」 第4回 / 全4回

エージェントは「ループ」「ハーネス」「コンテキスト」で動く。仕組みとしては、これで十分だ。デモを見れば、まるで万能の助手に見える。 だが——デモは魔法のようなのに、実際の長い仕事に乗せると、ぼろぼろ崩れる。これがエージェントの最大の現実である。その正体を、忖度なく数字で明かす。

正体は、製造業とまったく同じ「掛け算」

理由は、賢さの不足ではない。掛け算である。 エージェントは、考える→動く→観察するを、何十回も繰り返す。仮に各ステップが95%の確率で成功する、優秀なエージェントを考えよう。一見、頼もしい数字だ。でも——

各ステップ95%でも、20回つなぐと、成功率は4割を切る。これは、製造業でいう「歩留まり」とまったく同じ数学である。1000工程の半導体が、各工程の小さな不良率で全体が崩れるように、長いエージェントの連鎖も、各ステップの小さな失敗が掛け算で積み上がって崩れる。長く動かすほど、確実に崩れるのだ。

⚠ 概念図:実データではない 成功率 =(1ステップの成功率)の ステップ数乗 100%0 ステップ数 →(0 〜 30) 10ステップ→約59% 20ステップ→約36% 99% → 約74% 95% → 約21% 90% → 約4% (青=各ステップ95%。1ステップの差が、連鎖の成否を決める)
各ステップ95%でも、10ステップで約59%、20ステップで約36%。99%なら30ステップでも約74%、90%なら約4%。1ステップの確かさが、長い連鎖の成否を分ける。

しかも、現実は「掛け算」より悪い

話はもっと厳しい。実際のエージェントの失敗は、単純な掛け算よりも速く崩れる。理由は、失敗が次の失敗を呼ぶから。 一度まちがった行動をとると、その誤りが文脈という“机”に残り、それを見たAIは、さらにまちがえやすくなる。Sinha らの2025年の研究は、これを「自己条件付け(self-conditioning)」と呼び、長い実行で精度が落ちる主因は推論能力の限界ではなく“実行”でのつまずきにある、と報告している1。一歩のミスが、雪だるま式に効いてくる——ただしこれは比較的新しい一つの枠組みで、まだ定説として確立したものではない。

数字で見る「脆さ」——本番の自律完遂は、まだ難しい

現実的なタスクのベンチマーク(評価)を、正直に置く。 登場直後(2023年)の数字は厳しいものだった——WebArena(実際のウェブ操作)は、人間が約78%こなすところ、最良のエージェントが約14%2GAIA(一般的なアシスタント課題)は、人間92%に対し約15%3。 では、もっと現実に近い「自律的な仕事」はどうか。2024年末に公開された手強いベンチマーク TheAgentCompany(模擬的な会社業務175課題)でも、最良のモデルが自律で完全に終えられたのは約30%だった4派手な一発はできても、現実の多段の業務を、人手を借りずに最後まで通すのは、まだ難しい——これが「デモは凄いが実用は脆い」の、いまの正直な姿だ。

それでも、伸びは本物だ——「脆いが、速い」

ここで絶望するのは早い。掛け算は残酷だが、裏を返せば——各ステップの成功率がほんの少し上がるだけで、こなせるタスクの長さは指数的に伸びる。事実、ベンチマークの成績はこの1〜2年で大きく伸びた(WebArena は2025年に約60%超の報告もある2)。 より長期の傾向としては、METR が「(ソフトウェア開発タスクで)50%の信頼性でこなせるタスクの長さ」を継続的に計測している。それは倍々で伸びてきた——当初 METR は約7ヶ月ごとの倍化と報告したが、同団体の2026年の改訂では、2023年以降は約4ヶ月、2024年以降は約3ヶ月と、倍化はむしろ加速している5。「脆いが、急速に伸びている」が、いちばん正直な現在地だ。 (ただし、この傾向を「数年で月単位の仕事を自動化」と外挿する予測には、もっともな批判もある。傾向は事実、外挿は議論中、と分けて見るべきだ5。)

ただし、その数字も「測り方」しだいで動く

最後に、ここまで挙げた数字すべてに一つ注釈を付けておく。プリンストン大学の Kapoor らは “AI Agents That Matter” で、エージェント評価そのものの欠陥を指摘している——単純なベースラインが複雑なエージェントを約50倍低コストで上回ることがある/結果が再現できない/コストを無視して精度だけを競っている6。つまり、ベンチマークの成績は評価の足場しだいで動く。「すごい」と言われる成績ほど、条件を確かめてから受け取るべきだ

本当の急所は、「賢さ」より「各ステップの確かさ」

ここから得られる結論は、はっきりしている。 エージェントを実用に耐えさせる鍵は、より賢いモデルだけではない。掛け算に勝つには、各ステップの確かさ(信頼性)を上げ、まちがえたら気づいて立て直す——つまり検証と誤り回復こそが本丸である。これは「生成より検証」そのものであり、ハーネス(モデルを支える足場)が支える部分でもある。派手な一歩より、地味な“各歩の確かさ”。製造業が歩留まりに執念を燃やすのと、同じだ。


出典

  1. 自己条件付け(self-conditioning):A. Sinha et al., “The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs”, arXiv:2509.09677 (2025)。長い実行での精度低下は推論力でなく実行の誤りが主因、文脈中の過去の誤りが次の誤りを誘発、と報告。掛け算(p のN乗)は初等的な確率。 https://arxiv.org/abs/2509.09677

  2. WebArena:arXiv:2307.13854 (2023)。登場時(2023年)の数字=人間78.24%、最良GPT-4エージェント14.41%。その後改善し2025年には約60%超の報告もある(出発点として引用)。 https://arxiv.org/abs/2307.13854 2

  3. GAIA:arXiv:2311.12983 (2023)。登場時(2023年)=人間92%、GPT-4+プラグイン15%。その後改善(出発点として引用)。なお、これらベンチマークは攻略・漏洩で水増しされうるとの指摘もある(UC Berkeley RDI, 2025)。 https://arxiv.org/abs/2311.12983

  4. TheAgentCompany:arXiv:2412.14161 (2024)。最も competitive なagentで自律完了約30%。 https://arxiv.org/abs/2412.14161

  5. METR, “Measuring AI Ability to Complete Long Software Tasks”, arXiv:2503.14499 (2025)。ソフトウェア開発タスクで「50%信頼性タスク時間地平」が倍化する傾向。当初は約7ヶ月ごととされたが、METR の2026年改訂(Time Horizon 1.1, 2026-01-29)では、2019〜2025年通算で約6.3ヶ月、2023年以降は約4.3ヶ月、2024年以降は約3ヶ月と、倍化が加速していると報告された。傾向は事実だが、これを「数年で月単位の仕事を自動化」と外挿する予測には議論がある。 https://arxiv.org/abs/2503.14499 https://metr.org/blog/2026-1-29-time-horizon-1-1/ 2

  6. “AI Agents That Matter”:S. Kapoor et al. (Princeton), arXiv:2407.01502 (2024)。単純ベースラインが約50倍低コストで上回りうる・非再現性・コスト無視の評価。 https://arxiv.org/abs/2407.01502

この記事はAIが下書きし、人間が編集・公開しています。