AI・信頼性・評価

ハーネス——「どのモデルが賢いか」より、その“外側”が効く

2026/6/21 （更新: 2026/6/21）シリーズ「AIエージェントは、実際どう動くのか」第2回 / 全5回

🤖 AIが下書き・人間が編集

エージェントとは「LLMをループと道具で包んだもの」である。ここでは、その「包んでいる側」——ハーネスの話をする。地味だが、ここがエージェントの出来を、想像以上に左右する。

「どのモデルが賢いか」は、話の半分でしかない

エージェントの話題になると、ついモデル比べになる。「GPTとClaude、どっちが賢い？」と。もちろんモデルの賢さは大事だ。でも実務をやると、すぐに気づく——同じモデルでも、“外側の作り”しだいで、優秀な助手にも、使えないお荷物にもなるということに。

この「外側の作り」を、ハーネス（harness：留め具・装具）と呼ぶ。たとえるなら、LLMはエンジンで、ハーネスは車体の残り全部である。どれだけ高性能なエンジンでも、ハンドルもブレーキもタイヤも雑なら、まともに走らない。逆に、そこそこのエンジンでも車体が良ければ、ちゃんと目的地に着く。

ハーネスとは、具体的に何か

ハーネスは、LLMの周りを固めるソフトウェア一式である。主な部品は：

道具（ツール）：何を使えるか、どう呼び出すか（検索・コード実行・ファイル操作…）。
記憶（メモリ）：直近のやりとり（短期）と、過去の経験や知識（長期）をどう保持し、必要なときに取り出すか。
コンテキストの管理：LLMが一度に読める量には限りがある。その限られた枠に、いま必要な情報だけをどう載せるか。
オーケストレーション（loop制御）：考える→動く→観察するの回し方、失敗したときのやり直し、いつ止めるか。
指示（プロンプト／規律）：何を目指し、何をしてはいけないか、どう振る舞うか。
検証：行動の結果が本当に正しいかを、どう確かめるか。

エンジン（モデル）は買ってくるもの。ハーネスは、作るものである。そして、ここに腕の差が出る。

なぜ「外側」がそんなに効くのか——研究が示すこと

「言いすぎでは？」と思うかもしれない。だが、近年の冷静な研究がこれを裏づけている。

プリンストン大学の研究グループ（“AI Agents That Matter”）は、エージェント評価の落とし穴を指摘する中で、こう報告している——複雑に作り込んだエージェントを、ごく単純な手法（ベースライン）が上回ることがある。しかも、約50分の1のコストで¹。これは、エージェントの良し悪しがモデルの賢さだけでは決まらず、その周りの設計（と、それをどう測るか）に大きく依存することを意味する。実際、有名なベンチマークの成績も、同じモデルでもその周りの“足場”の作り方しだいで大きく動くことが知られている¹。

つまり——世間で「エージェントが進歩した」と言われるものの多くは、モデル本体の進歩というより、“ハーネス工学”の進歩だったりする。これは、希望でもあり、注意でもある。希望は「手元のモデルでも、足場を良くすれば伸ばせる」こと。注意は「派手なデモの裏で、作り込まれた足場が支えているだけかもしれない」ことだ。

ハーネスは、強さの源であり、もろさの源でもある

良いハーネスはエージェントを賢く見せる。が、同時に——ハーネスは作り込まれた“一点物”になりがちで、そこがもろさにもなる。少し違うタスク、少し違う環境になると、その足場が前提を外して崩れる。これは、製造業でいう「1個作れることと、量産できることは別問題」と同じ匂いがする。デモ（1個）はハーネスで成立しても、現実の多様なケース（量産）では崩れる。なぜ崩れるのか——その数学的な正体は、第4回で正面から扱う。

次回（第3回）は、ハーネスの中でも今いちばん注目されている部分、「コンテキストエンジニアリング」——限られた“作業机”に、何をどう載せるか、の話である。

出典

S. Kapoor, B. Stroebl, Z. S. Siegel, N. Nadgir, A. Narayanan (Princeton), “AI Agents That Matter”, arXiv:2407.01502 (2024)。単純なベースラインが複雑なエージェントを約50倍低コストで上回りうること、評価の非標準化・再現性の問題、成績が足場(scaffold)に強く依存することを指摘。ハーネスの構成要素（計画・記憶・道具）の整理は Lilian Weng, “LLM Powered Autonomous Agents”, Lil’Log (2023) に基づく一般的な枠組み。 https://arxiv.org/abs/2407.01502 https://lilianweng.github.io/posts/2023-06-23-agent/ ↩ ↩²

この記事はAIが下書きし、人間が編集・公開しています。