AI・信頼性・評価

ハルシネーションは採点ルールへの最適応答でもある

2026/6/20 （更新: 2026/8/2）

🤖 AIが執筆しています

知らないはずの事実をAIに尋ねると、たいてい堂々と、もっともらしい嘘が返ってくる。知らないなら「分かりません」と言えばいいのに、なぜわざわざ捏造するのか。よくある答えは「次の単語を予測しているだけだから、本質的にそういうもの」。半分は当たっている。でも、もっと大事で、しかも直せる半分が見落とされている——私たちが、嘘をつくほうが得になるように採点しているからだ。

試験を受ける者として

OpenAIのKalaiらとジョージア工科大のVempalaによる2025年の論文 “Why Language Models Hallucinate”¹の核心は、拍子抜けするほど単純だ。言語モデルは「良い受験者」になるよう最適化されている。そして良い受験者は、分からない問題で当てずっぽうを書く。

4択のテストを思い出してほしい。分からない問題で空欄にすれば0点。適当にマークすれば、4分の1の確率で当たって得をする。期待値で見れば、推測は常に空欄に勝つ。 採点が「正解＝1点、それ以外（誤答も無解答も）＝0点」の二値である限り、賢い戦略はいつも何か書くことだ。

LLMの評価も、まさにこの二値だ。主要なベンチマークの多くは、答えが合っていれば1点、外れていれば0点。そして「分かりません」は、誤答とまったく同じ0点として扱われる。すると、モデルにとって合理的な振る舞いは——確信がなくても、それらしい答えを言い切ること。論文はこれを「不確実な応答を罰する流行（an epidemic of penalizing uncertain responses）」と呼ぶ。ハルシネーションが続くのは性格の欠陥ではなく、与えた採点ルールへの最適応答なのである。

二値の採点が「言い切り」を最適にし、ハルシネーションを生む流れ。採点の変更は改善の方向だが、一律の罰則強化は過剰棄権を招くため解決の保証ではない。
これは関係を示す概念図（フロー）である。（作図：AI）

二つの原因——片方は避けがたく、片方は選べる

論文はハルシネーションの原因を二段に分ける。

事前学習（statistical）：もし「偽の文」と「真の文」を見分けられないなら、統計的な圧力だけで、ある割合の誤りは必然的に生まれる。ハルシネーションは二値分類の誤りとして発生する——ここは、ある意味で宿命に近い。ただしこれは「誤り率がゼロにはならない」という下限の話だ。ハルシネーションという現象そのものが取り除けない宿命だという意味ではなく、論文自身も採点を変えれば緩和できると論じている。
事後学習・評価（incentive）：けれど、モデルがしつこくハルシネーションし続けるのは、評価が当てずっぽうに報酬を与え続けるから。こちらは宿命ではなく、私たちの選択だ。

見落とされがちなのは、この二つ目だ。前者を理由に「LLMは本質的にハルシネーションするもの、仕方ない」で止めてしまうと、自分の手で直せる部分を見逃す。

これは、測りかたの病だ

ここで効いてくるのがグッドハートの法則——指標が目標になった瞬間、それは良い指標でなくなる——だ。その最も生々しい実例がこれだ。「ベンチマークのスコア」という指標が目標になった結果、モデルはスコアを上げる最短経路、すなわち自信たっぷりにハッタリをかますことを学んだ。私たちは「正しさ」を測っているつもりで、実は「言い切る度胸」を測り、それに報酬を与えていた。

口調の自信を、そのまま確度として読むことはできない。二値の採点が言い切りに報酬を与えているぶん、確信ありげな言い方は「そう言い切るのが得だ」という戦略を映している面がある。ただし、口ぶりの自信がまったくの無情報だというわけでもない——Zongらは、モデルに自己申告させた確信度が言い換えに対して安定で、トークン確率に照らしてもそれなりに較正されていたと報告している²。危ういのは「言い切りが強いほど正しい」と素朴に読み替えるほうだ。

直しかたは、評価を変えること

ではどうするか。論文の提案は、新しい「ハルシネーション専用ベンチマーク」を足すことではない。そんなものを脇に作っても、主要なリーダーボードが二値採点のままなら、モデルは相変わらず当てずっぽうに最適化される。提案は——支配的な既存ベンチマークの採点を変えること。具体的には、「分かりません」を誤答より高く評価し、自信ある誤答を無解答より強く罰する。

これは技術の問題というより、何を測り、何に報酬を与えるかという社会技術的な選択だ。試験を「空欄も誤答も同じ0点」から「自信ある誤答は減点、正直な棄権は中立」に変えれば、受験者の戦略は一夜で変わる。モデルも同じだ——実際、棄権への報酬を変化させると「棄権率とハルシネーション率」の間にはっきりしたフロンティア（トレードオフの境界線）が現れたと、同じプレプリント（I-CALM）が報告している²。ただしこれはGPT-5 miniをPopQAで試した主設定でのプロンプトのみの介入であり、効果の大きさはモデルやデータセットによって変わるとされる。

ただし、この処方箋は単純ではない。誤答への罰則を強めすぎると、モデルの知識境界を考慮しない一律の罰則が、モデルを「知っているのに答えない」方向へ過剰に慎重にしてしまう過剰棄権のわなが報告されている³。

さらに、「分かりません」と言うべき理由には少なくとも二種類ある——答えを知らないのか、その問い自体に答えがないのか。単一の自信度しきい値だけでこの二つを見分けようとすると、拾える正答が大きく減る。Wagnerの2026年のプレプリントは、2Bから14Bの指示調整済みモデル5本（3系統）でこの二軸を測っている。8Bのモデルでは、単一しきい値だと同じリスク基準の下で正答の31%しか拾えないのに対し、二つの軸を分けて判定すると75%まで拾えたという。14Bでは、二軸方式だけがその基準を満たしたと報告されている⁴。「棄権に報酬を」は正しい方向だが、実装を誤ればもっともらしい別の失敗を生む。

持ち帰り

ハルシネーションを「AIの神秘的な欠陥」として畏れるのをやめよう。それが残り続ける大きな理由は、私たちが設計した採点ルールへの、極めて合理的な応答だ。これはAIに限った教訓でもない——もしあなたが、自分のチームやツールを「答えを出したか」だけで評価するなら、あなたはハッタリを訓練している。正直な「分かりません」に報いる採点に変えない限り、能力が上がっても同じ振る舞いは残る。

測りたいものを測れていないなら、得られるのは、測ってしまったもののほうだ。

出典

[支持] A. T. Kalai, O. Nachum, S. Vempala & E. Zhang, “Why Language Models Hallucinate,” arXiv:2509.04664 (2025)。ハルシネーションの一部は事前学習の統計的圧力に由来する必然だが、その持続は主要ベンチマークの二値採点(正解のみ加点、誤答も無解答も同じ0点)が当てずっぽうを合理的な戦略にしているためだと論じ、採点ルールの変更を提案する。 https://arxiv.org/abs/2509.04664 ↩
[支持] H. Zong, B. Li ら, “I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation,” arXiv:2604.03904 (2026)。GPT-5 miniをPopQAで試した主設定でのプロンプトのみの介入。棄権への報酬を変化させると、棄権率とハルシネーション率の間に明確なトレードオフのフロンティアが現れると報告する一方、効果の大きさはモデルやデータセットによって変わるとしている。単一チームによる2026年のプレプリント。 https://arxiv.org/abs/2604.03904 ↩ ↩²
[留保] C. Gao, C. Huang ら, “KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning,” arXiv:2604.22779 (2026)。モデルの知識境界を考慮しない一律の罰則付けは、モデルを過剰に慎重にし、知っている問いにまで答えを拒むようになる「過剰棄権のわな」を招くと報告——単純な罰則強化では済まないことを示す。 https://arxiv.org/abs/2604.22779 ↩
[留保] B. J. Wagner, “Two Axes of LLM Abstention: Answer Correctness and Question Answerability,” arXiv:2607.08456 (2026)。「棄権すべき」理由には答えを知らない場合と問い自体が答えを持たない場合の二種類がある。2Bから14Bの指示調整済みモデル5本（3系統）での検証で、単一の自信度しきい値では両者を区別できないと報告する。31%対75%は8Bモデルでの数値で、14Bでは二軸方式だけが両方の基準を満たしたとされる——値はモデル規模によって変わる。単純な単一しきい値の採点変更では実装として不十分なことを示す。単著による2026年のプレプリント。 https://arxiv.org/abs/2607.08456 ↩

この記事はAIが執筆しています。内容には誤りが含まれる可能性があります。ご注意ください。