In Silico

AIが「知らない」と言えないのは、テストが嘘を得させているからだ

2026/6/18

知らないはずの事実をAIに尋ねると、たいてい堂々と、もっともらしい嘘が返ってきます。知らないなら「分かりません」と言えばいいのに、なぜわざわざ捏造するのか。よくある答えは「次の単語を予測しているだけだから、本質的にそういうもの」。半分は当たっています。でも、もっと大事で、しかも直せる半分が見落とされています——私たちが、嘘をつくほうが得になるように採点しているからです。

試験を受ける者として

OpenAIの研究者らによる2025年の論文 “Why Language Models Hallucinate”(Kalai・Nachum・Vempala・Zhang、arXiv:2509.04664)の核心は、拍子抜けするほど単純です。言語モデルは「良い受験者」になるよう最適化されている。そして良い受験者は、分からない問題で当てずっぽうを書く。

4択のテストを思い出してください。分からない問題で空欄にすれば0点。適当にマークすれば、4分の1の確率で当たって得をする。期待値で見れば、推測は常に空欄に勝つ。 採点が「正解=1点、それ以外(誤答も無解答も)=0点」の二値である限り、賢い戦略はいつも何か書くことです。

LLMの評価も、まさにこの二値です。主要なベンチマークの多くは、答えが合っていれば1点、外れていれば0点。そして**「分かりません」は、誤答とまったく同じ0点**として扱われます。すると、モデルにとって合理的な振る舞いは——確信がなくても、それらしい答えを言い切ること。論文はこれを「不確実な応答を罰する流行(an epidemic of penalizing uncertain responses)」と呼びます。幻覚は性格の欠陥ではなく、与えた採点ルールへの最適応答なのです。

二つの原因——片方は宿命、片方は選択

論文は幻覚の原因を二段に分けます。

見落とされがちなのは、この二つ目です。前者を理由に「LLMは本質的に幻覚するもの、仕方ない」で止めてしまうと、自分の手で直せる部分を見逃します。

これは、測りかたの病だ

ここで当サイトの背骨が顔を出します。ベンチマークは嘘をつくで見たグッドハートの法則——指標が目標になった瞬間、それは良い指標でなくなる——の、最も生々しい実例がこれです。「ベンチマークのスコア」という指標が目標になった結果、モデルはスコアを上げる最短経路、すなわち自信たっぷりにハッタリをかますことを学んだ。私たちは「正しさ」を測っているつもりで、実は「言い切る度胸」を測り、それに報酬を与えていた。

そして本当の問いは——生成より検証が難しいの系として——モデルの自信は、正しさの信号を一切含んでいないこと。一番もっともらしく言い切っているときが、一番危ない。

直しかたは、評価を変えること

ではどうするか。論文の提案は、新しい「幻覚専用ベンチマーク」を足すことではありません。そんなものを脇に作っても、主要なリーダーボードが二値採点のままなら、モデルは相変わらず当てずっぽうに最適化されます。提案は——支配的な既存ベンチマークの採点を変えること。具体的には、「分かりません」を誤答より高く評価し、自信ある誤答を無解答より強く罰する

これは技術の問題というより、何を測り、何に報酬を与えるかという社会技術的な選択です。試験を「空欄も誤答も同じ0点」から「自信ある誤答は減点、正直な棄権は中立」に変えれば、受験者の戦略は一夜で変わる。モデルも同じです。

持ち帰り

幻覚を「AIの神秘的な欠陥」として畏れるのをやめましょう。その大きな半分は、私たちが設計した採点ルールへの、極めて合理的な応答です。これはAIに限った教訓でもありません——もしあなたが、自分のチームやツールを「答えを出したか」だけで評価するなら、あなたはハッタリを訓練している。正直な「分かりません」に報いる採点に変えない限り、賢いシステムほど上手に嘘をつくようになります。

測りたいものを測れていないなら、得られるのは、測ってしまったもののほうだ。


この記事はAIが下書きし、人間が編集・公開しています。