AIエージェント

コーディングAIを点数で選べなくなってきた——飽和したベンチマークと『長丁場』という本当の差

2026/7/3

🤖 AIが下書き・人間が編集

同じ世代の最前線モデルでも、測る仕事の長さで点数がまるで変わることを示す棒グラフ。短い問題（1件のバグ修正=SWE-bench Verified）では約73%を解くが、長丁場の問題（複数ファイルにまたがる継続的な改修=SWE-EVO）では約25%に落ちる。差は約48ポイント。 — ※ 出典：各ベンチマークの公表値（arXiv:2512.18470 ほか）・作図：AI。同じ世代のモデルでも、短い問題と長丁場では点数がまるで変わる。

要点： コーディングAIの実力を測る定番の物差し（SWE-bench Verified）で、最前線のモデルは軒並み7〜9割に届くようになった¹。高いところに全員が張り付けば、その物差しでは上位を見分けられない。そこで研究側は、1件のバグを直す短い問題ではなく、複数のファイルにまたがって作り替え続ける長丁場を測り始めた。新しいベンチマーク SWE-EVO では、短い問題なら約73%を解く世代のモデルでも、長丁場では最良で約25%まで落ちる²。評価の焦点が「1件直せるか」から「長く働き続けられるか」へ移りつつある。

数字：同じ世代で73%と25%

SWE-EVO は、成熟した7つのPython製オープンソースのリリースノートから課題を作った48問のベンチマークだ。1問あたり平均21ファイルに手を入れ、平均874件のテストで正否を判定する——つまり「1箇所を直す」ではなく「機能を一段進める」規模の仕事である²。

ここで、短い問題（SWE-bench Verified）なら約73%を解く世代のエージェント構成が、SWE-EVO では約25%しか通らなかった²。同じ道具立てでも、測る仕事の長さを変えるだけで約48ポイントの差が開く。著者らはこの差を「持続的な複数ファイル推論で現行エージェントが苦戦する」ことの表れと位置づけ、○×だけでなく途中までの進捗を拾う「Fix Rate」という指標も導入している²。

なぜ短い問題では差がつかなくなったのか

SWE-bench Verified は、実在のバグ報告1件に対する修正パッチを当てられるかを測る。設計として孤立した1件を切り出しているため、最前線のモデルにとっては上限に近づいてきた。加えて、この物差しは足回り（scaffold）に敏感で、モデルを変えずにエージェント側の作り込みを足すだけでスコアが数ポイント動くことが知られている¹。全員が上に張り付き、しかも構成次第で順位が入れ替わるなら、単体の数字で優劣は語りにくい。

飽和そのものは失敗ではない。むしろ「短い問題はおおむね解けるようになった」という到達点だ。問題は、その数字がもう実務での使い勝手を予言しないことにある。

評価の焦点が動いている

これは一本の論文の主張にとどまらない。SWE-EVO のほかにも、より長く・より難しい仕事を測ろうとする独立の試みが相次いでいる——複数ファイル・長時間の課題に寄せた SWE-bench Pro、コマンドライン上の長丁場作業を測る Terminal-Bench 2.0、そしてエージェント評価の土台そのものを組み直そうとする Holistic Agent Leaderboard などだ³。作り手も狙う軸もばらばらな複数のグループが、そろって「孤立した1件」から「持続する仕事」へ物差しを寄せている。同じ方向に複数の独立した動きがある、というのがこの記事の芯だ。

実務で何が変わるか

読み手が最前線の道具を選ぶ側なら、変化は三つに落ちる。

SWE-bench Verified の一点だけで並べない。 上位は飽和し、足回り次第で順位が動く¹。単体の数字は「下限を割っていないか」の確認には使えても、上位モデルの優劣判定には向かなくなった。
長丁場の数字を見にいく。 実務でエージェントに任せたいのは、たいてい「1件のバグ」ではなく「機能を一段進める」複数ファイルの仕事だ。その使い勝手を予言するのは長丁場側の点数で、そこでは最良でも約25%——つまりまだ人の設計と監督が要るという現在地を、数字が正直に示している²。
どこで転ぶかまで読む。 差が出るのは、多数のファイルにまたがって整合を保ちながら手を入れ続ける局面だ²。任せる仕事をその形（多ファイル・長い依存）に近づけるほど、今の実力との距離は大きくなる。

ただし長丁場ベンチマークはどれも新しく、規模も小さい（SWE-EVO は48問）。数字は今後動くし、一つの指標を新しい定番として担ぐのは早い。確かなのは点数の高低ではなく、測る対象が「1件直せるか」から「長く働き続けられるか」へ移ったという向きのほうだ。

出典

SWE-bench Verified は実在の課題1件に対する修正を測る500問（Epoch AI の検証は484問）。最前線モデルは高得点帯に集まり、同じモデルでも足回り（scaffold）次第でスコアが数ポイント動く（例：Claude 3.7 が62.3%→70.2%）。Epoch AI, “SWE-bench Verified”. https://epoch.ai/benchmarks/swe-bench-verified ↩ ↩² ↩³
Tue Le, Minh V. T. Thai, Dung Nguyen Manh, Huy Phan Nhat, Nghi D. Q. Bui, “SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios”（arXiv:2512.18470, 2025-12-20）。48問・平均21ファイル・平均874テスト、7つの成熟Python OSSのリリースノート由来。最良構成（GPT-5.4 + OpenHands）が SWE-EVO で25%、比較対象の同世代モデル（GPT-5.2）が SWE-bench Verified で72.8%。https://arxiv.org/abs/2512.18470 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
より長く・難しい仕事へ物差しを寄せる独立の試みの例——SWE-bench Pro（複数ファイル・長時間）、Terminal-Bench 2.0（コマンドライン上の長丁場、Epoch AI）、Holistic Agent Leaderboard（arXiv:2510.11977、エージェント評価基盤）。作り手も軸も異なる複数グループが同方向に動いている。https://arxiv.org/abs/2510.11977 ↩

この記事はAIが下書きし、人間が編集・公開しています。