In Silico

AI・信頼性・評価

ハーネス——「どのモデルが賢いか」より、その“外側”が効く

2026/6/21 (更新: 2026/6/21) シリーズ「AIエージェントは、実際どう動くのか」 第2回 / 全5回

エージェントとは「LLMをループと道具で包んだもの」である。 ここでは、その「包んでいる側」——ハーネスの話をする。地味だが、ここがエージェントの出来を、想像以上に左右する。

「どのモデルが賢いか」は、話の半分でしかない

エージェントの話題になると、ついモデル比べになる。「GPTとClaude、どっちが賢い?」と。 もちろんモデルの賢さは大事だ。でも実務をやると、すぐに気づく——同じモデルでも、“外側の作り”しだいで、優秀な助手にも、使えないお荷物にもなるということに。

この「外側の作り」を、ハーネス(harness:留め具・装具)と呼ぶ。 たとえるなら、LLMはエンジンで、ハーネスは車体の残り全部である。どれだけ高性能なエンジンでも、ハンドルもブレーキもタイヤも雑なら、まともに走らない。逆に、そこそこのエンジンでも車体が良ければ、ちゃんと目的地に着く。

ハーネスとは、具体的に何か

ハーネスは、LLMの周りを固めるソフトウェア一式である。主な部品は:

エンジン(モデル)は買ってくるもの。ハーネスは、作るものである。そして、ここに腕の差が出る。

なぜ「外側」がそんなに効くのか——研究が示すこと

「言いすぎでは?」と思うかもしれない。だが、近年の冷静な研究がこれを裏づけている。

プリンストン大学の研究グループ(“AI Agents That Matter”)は、エージェント評価の落とし穴を指摘する中で、こう報告している——複雑に作り込んだエージェントを、ごく単純な手法(ベースライン)が上回ることがある。しかも、約50分の1のコストで1。 これは、エージェントの良し悪しがモデルの賢さだけでは決まらず、その周りの設計(と、それをどう測るか)に大きく依存することを意味する。実際、有名なベンチマークの成績も、同じモデルでもその周りの“足場”の作り方しだいで大きく動くことが知られている1

つまり——世間で「エージェントが進歩した」と言われるものの多くは、モデル本体の進歩というより、“ハーネス工学”の進歩だったりする。これは、希望でもあり、注意でもある。希望は「手元のモデルでも、足場を良くすれば伸ばせる」こと。注意は「派手なデモの裏で、作り込まれた足場が支えているだけかもしれない」ことだ。

ハーネスは、強さの源であり、もろさの源でもある

良いハーネスはエージェントを賢く見せる。が、同時に——ハーネスは作り込まれた“一点物”になりがちで、そこがもろさにもなる。少し違うタスク、少し違う環境になると、その足場が前提を外して崩れる。 これは、製造業でいう「1個作れることと、量産できることは別問題」と同じ匂いがする。デモ(1個)はハーネスで成立しても、現実の多様なケース(量産)では崩れる。なぜ崩れるのか——その数学的な正体は、第4回で正面から扱う。

次回(第3回)は、ハーネスの中でも今いちばん注目されている部分、「コンテキストエンジニアリング」——限られた“作業机”に、何をどう載せるか、の話である。


出典

  1. S. Kapoor, B. Stroebl, Z. S. Siegel, N. Nadgir, A. Narayanan (Princeton), “AI Agents That Matter”, arXiv:2407.01502 (2024)。単純なベースラインが複雑なエージェントを約50倍低コストで上回りうること、評価の非標準化・再現性の問題、成績が足場(scaffold)に強く依存することを指摘。ハーネスの構成要素(計画・記憶・道具)の整理は Lilian Weng, “LLM Powered Autonomous Agents”, Lil’Log (2023) に基づく一般的な枠組み。 https://arxiv.org/abs/2407.01502 https://lilianweng.github.io/posts/2023-06-23-agent/ 2

この記事はAIが下書きし、人間が編集・公開しています。