AI・信頼性・評価
ハーネス——「どのモデルが賢いか」より、その“外側”が効く
エージェントとは「LLMをループと道具で包んだもの」である。 ここでは、その「包んでいる側」——ハーネスの話をする。地味だが、ここがエージェントの出来を、想像以上に左右する。
「どのモデルが賢いか」は、話の半分でしかない
エージェントの話題になると、ついモデル比べになる。「GPTとClaude、どっちが賢い?」と。 もちろんモデルの賢さは大事だ。でも実務をやると、すぐに気づく——同じモデルでも、“外側の作り”しだいで、優秀な助手にも、使えないお荷物にもなるということに。
この「外側の作り」を、ハーネス(harness:留め具・装具)と呼ぶ。 たとえるなら、LLMはエンジンで、ハーネスは車体の残り全部である。どれだけ高性能なエンジンでも、ハンドルもブレーキもタイヤも雑なら、まともに走らない。逆に、そこそこのエンジンでも車体が良ければ、ちゃんと目的地に着く。
ハーネスとは、具体的に何か
ハーネスは、LLMの周りを固めるソフトウェア一式である。主な部品は:
- 道具(ツール):何を使えるか、どう呼び出すか(検索・コード実行・ファイル操作…)。
- 記憶(メモリ):直近のやりとり(短期)と、過去の経験や知識(長期)をどう保持し、必要なときに取り出すか。
- コンテキストの管理:LLMが一度に読める量には限りがある。その限られた枠に、いま必要な情報だけをどう載せるか。
- オーケストレーション(loop制御):考える→動く→観察するの回し方、失敗したときのやり直し、いつ止めるか。
- 指示(プロンプト/規律):何を目指し、何をしてはいけないか、どう振る舞うか。
- 検証:行動の結果が本当に正しいかを、どう確かめるか。
エンジン(モデル)は買ってくるもの。ハーネスは、作るものである。そして、ここに腕の差が出る。
なぜ「外側」がそんなに効くのか——研究が示すこと
「言いすぎでは?」と思うかもしれない。だが、近年の冷静な研究がこれを裏づけている。
プリンストン大学の研究グループ(“AI Agents That Matter”)は、エージェント評価の落とし穴を指摘する中で、こう報告している——複雑に作り込んだエージェントを、ごく単純な手法(ベースライン)が上回ることがある。しかも、約50分の1のコストで1。 これは、エージェントの良し悪しがモデルの賢さだけでは決まらず、その周りの設計(と、それをどう測るか)に大きく依存することを意味する。実際、有名なベンチマークの成績も、同じモデルでもその周りの“足場”の作り方しだいで大きく動くことが知られている1。
つまり——世間で「エージェントが進歩した」と言われるものの多くは、モデル本体の進歩というより、“ハーネス工学”の進歩だったりする。これは、希望でもあり、注意でもある。希望は「手元のモデルでも、足場を良くすれば伸ばせる」こと。注意は「派手なデモの裏で、作り込まれた足場が支えているだけかもしれない」ことだ。
ハーネスは、強さの源であり、もろさの源でもある
良いハーネスはエージェントを賢く見せる。が、同時に——ハーネスは作り込まれた“一点物”になりがちで、そこがもろさにもなる。少し違うタスク、少し違う環境になると、その足場が前提を外して崩れる。 これは、製造業でいう「1個作れることと、量産できることは別問題」と同じ匂いがする。デモ(1個)はハーネスで成立しても、現実の多様なケース(量産)では崩れる。なぜ崩れるのか——その数学的な正体は、第4回で正面から扱う。
次回(第3回)は、ハーネスの中でも今いちばん注目されている部分、「コンテキストエンジニアリング」——限られた“作業机”に、何をどう載せるか、の話である。
出典
-
S. Kapoor, B. Stroebl, Z. S. Siegel, N. Nadgir, A. Narayanan (Princeton), “AI Agents That Matter”, arXiv:2407.01502 (2024)。単純なベースラインが複雑なエージェントを約50倍低コストで上回りうること、評価の非標準化・再現性の問題、成績が足場(scaffold)に強く依存することを指摘。ハーネスの構成要素(計画・記憶・道具)の整理は Lilian Weng, “LLM Powered Autonomous Agents”, Lil’Log (2023) に基づく一般的な枠組み。 https://arxiv.org/abs/2407.01502 https://lilianweng.github.io/posts/2023-06-23-agent/ ↩ ↩2
この記事はAIが下書きし、人間が編集・公開しています。