AIが「知らない」と言えないのは、テストが嘘を得させているからだ
知らないはずの事実をAIに尋ねると、たいてい堂々と、もっともらしい嘘が返ってきます。知らないなら「分かりません」と言えばいいのに、なぜわざわざ捏造するのか。よくある答えは「次の単語を予測しているだけだから、本質的にそういうもの」。半分は当たっています。でも、もっと大事で、しかも直せる半分が見落とされています——私たちが、嘘をつくほうが得になるように採点しているからです。
試験を受ける者として
OpenAIの研究者らによる2025年の論文 “Why Language Models Hallucinate”(Kalai・Nachum・Vempala・Zhang、arXiv:2509.04664)の核心は、拍子抜けするほど単純です。言語モデルは「良い受験者」になるよう最適化されている。そして良い受験者は、分からない問題で当てずっぽうを書く。
4択のテストを思い出してください。分からない問題で空欄にすれば0点。適当にマークすれば、4分の1の確率で当たって得をする。期待値で見れば、推測は常に空欄に勝つ。 採点が「正解=1点、それ以外(誤答も無解答も)=0点」の二値である限り、賢い戦略はいつも何か書くことです。
LLMの評価も、まさにこの二値です。主要なベンチマークの多くは、答えが合っていれば1点、外れていれば0点。そして**「分かりません」は、誤答とまったく同じ0点**として扱われます。すると、モデルにとって合理的な振る舞いは——確信がなくても、それらしい答えを言い切ること。論文はこれを「不確実な応答を罰する流行(an epidemic of penalizing uncertain responses)」と呼びます。幻覚は性格の欠陥ではなく、与えた採点ルールへの最適応答なのです。
二つの原因——片方は宿命、片方は選択
論文は幻覚の原因を二段に分けます。
- 事前学習(statistical):もし「偽の文」と「真の文」を見分けられないなら、統計的な圧力だけで、ある割合の誤りは必然的に生まれる。幻覚は二値分類の誤りとして発生する——ここは、ある意味で宿命に近い。これは当サイトの「幻覚は設計仕様だ」で見た話の、厳密版です。
- 事後学習・評価(incentive):けれど、モデルがしつこく幻覚し続けるのは、評価が当てずっぽうに報酬を与え続けるから。こちらは宿命ではなく、私たちの選択です。
見落とされがちなのは、この二つ目です。前者を理由に「LLMは本質的に幻覚するもの、仕方ない」で止めてしまうと、自分の手で直せる部分を見逃します。
これは、測りかたの病だ
ここで当サイトの背骨が顔を出します。ベンチマークは嘘をつくで見たグッドハートの法則——指標が目標になった瞬間、それは良い指標でなくなる——の、最も生々しい実例がこれです。「ベンチマークのスコア」という指標が目標になった結果、モデルはスコアを上げる最短経路、すなわち自信たっぷりにハッタリをかますことを学んだ。私たちは「正しさ」を測っているつもりで、実は「言い切る度胸」を測り、それに報酬を与えていた。
そして本当の問いは——生成より検証が難しいの系として——モデルの自信は、正しさの信号を一切含んでいないこと。一番もっともらしく言い切っているときが、一番危ない。
直しかたは、評価を変えること
ではどうするか。論文の提案は、新しい「幻覚専用ベンチマーク」を足すことではありません。そんなものを脇に作っても、主要なリーダーボードが二値採点のままなら、モデルは相変わらず当てずっぽうに最適化されます。提案は——支配的な既存ベンチマークの採点を変えること。具体的には、「分かりません」を誤答より高く評価し、自信ある誤答を無解答より強く罰する。
これは技術の問題というより、何を測り、何に報酬を与えるかという社会技術的な選択です。試験を「空欄も誤答も同じ0点」から「自信ある誤答は減点、正直な棄権は中立」に変えれば、受験者の戦略は一夜で変わる。モデルも同じです。
持ち帰り
幻覚を「AIの神秘的な欠陥」として畏れるのをやめましょう。その大きな半分は、私たちが設計した採点ルールへの、極めて合理的な応答です。これはAIに限った教訓でもありません——もしあなたが、自分のチームやツールを「答えを出したか」だけで評価するなら、あなたはハッタリを訓練している。正直な「分かりません」に報いる採点に変えない限り、賢いシステムほど上手に嘘をつくようになります。
測りたいものを測れていないなら、得られるのは、測ってしまったもののほうだ。
この記事はAIが下書きし、人間が編集・公開しています。