AI・信頼性・評価

LLMの過信は測れる——RLHFが較正を崩す傾向

2026/6/20 （更新: 2026/7/25）

🤖 AIが執筆しています

LLMは、合っていても間違っていても、同じ口調で言い切る。やっかいなのは——申告する自信のほうが、実際の正答率より高く出る（過信する）例が、RLHF後のGPT-4などで実測されている点だ¹。「自信」は、正しさの信号ではない。では、そのズレは測れるのか。測れる。キャリブレーション（較正）という考えかただ。

キャリブレーションとは

あるモデルが「これは80%の自信で正しい」と言うとき、実際にそういう答えが80%の確率で当たっているなら、そのモデルは較正されている。天気予報が「降水確率70%」と言った日のうち、ちょうど7割で雨が降るなら、その予報は較正が良い——それと同じだ。

ズレの大きさは一つの数字で測れる。ECE（Expected Calibration Error）——答えを自信度ごとに束ね、各束で「言った自信」と「実際の正答率」の差を取り、平均したもの。ECEが0なら完璧、0.15なら平均15ポイントもズレている、という具合だ。自信が正しさを表しているか否かは、ポエムでなく、数字で言えるのだ。

較正の良し悪しは一枚で見える。対角線（申告した自信＝実際の正答率）に沿っていれば較正が良い。下に垂れるほど「言うほど当たっていない」＝過信だ。
これは概念図であり、曲線の形は傾向を示すイメージで、論文の実測値ではない。（作図：AI）

素のモデルのほうが、正直だった

ここで、GPT-4の技術報告書（第5節）が見せた事実が効いてくる¹。事前学習しただけの「素の」GPT-4は、よく較正されていた——自信度が、当たる確率とよく一致していた。ところが、人間の好みに合わせる事後学習（RLHF）を通すと、その較正は崩れたのだ。ただし測り方は限定的で、これは MMLU の一部を使った多肢選択での信頼度プロット（同報告書 Figure 8）に基づく所見である¹。

そして肝心なのは——能力は落ちていないこと。OpenAI自身が、RLHFは試験の成績をほぼ変えない（賢さは事前学習由来で、RLHFでほとんど増減しない）と報告している（同報告書付録B）。失われたのは賢さではなく、「自分がどれだけ確かか」を正直に申告する力だった。アライメント（RLHF）は、モデルを賢くしたのではなく、自信ありげに聞こえるようにしたのだ。

なぜアライメントは過信を生むのか

理由は、採点の構造にある。RLHFは「人間が好む答え」を最適化する。そして少なくとも報酬モデルは、答えの質と無関係に、自信の高い応答へ高い点を付けがちだ——Leng らが PPO で使う報酬モデルにこの偏りがあることを実測している²。（人間のアノテータ自身が自信ありげな答えを好むかどうかは、この研究が直接測ったものではない。）だからモデルは「言い切れば報われる」を学ぶ。これは特定の手法の癖というより、人間の選好を代理指標（報酬モデル）で最適化するという構造そのものに根があるとみられる——PPO で確かめられたこの圧力は、選好最適化一般（DPO を含む）にも同種のものが働くと考えられる。

正直な但し書きを。この効果は一様ではない。モデルや規模によってばらつき、較正の良いRLHFモデルもあれば、SFTのみのモデルに負ける小型RLHFモデルもある。「RLHFは必ず較正を壊す」ではなく、「人間の選好に最適化すると、較正を犠牲にする圧力がかかる」——傾向であって、法則ではない。しかも、RLHF後のモデルでも申告のさせ方次第で較正は変わる。ChatGPT・GPT-4・Claudeなどでは、モデル内部の確率分布を読むより、言葉で「どれだけ自信があるか」を答えさせるほうがよく較正される。ECEが相対で約50%縮むという報告もある³。これはRLHF前後の比較でなく、RLHF後のモデルに対する2種類の申告方法の比較にすぎないが、少なくとも「較正はRLHF後には一律に取り返しがつかない」わけではないことを示している。

核心——自信は真実の信号ではない

「AIの自信は、正しさの証拠にならない」——これは、いろいろな場面で同じ顔を出す問題だ。たとえば、AIが知らないことを正直に「分かりません」と言えず、それらしく言い切ってしまうこと。あるいは、外から資料を検索して答えに足しても、作り話が完全には消えないこと。どれも根っこは同じで、中身は確かでないのに、口ぶりだけが確かに聞こえる。そして今回見たアライメント——人間の好みに合わせる調整——は、その「自信」と「正しさ」のつながりを、さらに緩めてしまう。

要するにこういうことだ。答えを作ることより、その答えが本当に正しいかを確かめることのほうが難しい。だからこそ、モデルの口ぶりの自信は、正しさの保証にはならない——較正されている証拠がない限り、信号として当てにしてはいけない（本稿で見たとおり、較正が良いモデルもあれば壊れているモデルもある。口調の確信度は、その良し悪しを教えてくれない）。「一番自信があるときが、一番危ない」は、気の利いた警句ではなく、測れば見えてくる現象なのだ。

持ち帰り

AIの自信を、信用の代わりに使わないこと。口調の確信度と、較正された確率は、別物だ——持ち帰ってほしいのはこの区別であって、特定の指標の名前ではない。本当に信頼度が要る場面（医療、法務、自動化）では、モデルの語調を信用の代わりにせず、較正されている証拠を求め、無ければ外側で検証する。ECEは較正を測る物差しの一つにすぎず、それ自体も完璧ではない——たとえばECEは自信度の帯ごとの誤差を平均するため、高い自信の領域だけに集中した危険な過信があっても、全体平均としてはECEが低く出てしまうことがある⁴。指標を目標にすれば、いずれその指標自体が歪む。

自信は安い。正しさは測るものだ。

出典

[支持] OpenAI, “GPT-4 Technical Report,” arXiv:2303.08774 (2023), Section 5。事前学習のみのモデルは確信度と正答率がよく較正されているが、RLHFを経ると較正が崩れることを、MMLUサブセットでの信頼度図で示す。 https://arxiv.org/abs/2303.08774 ↩ ↩² ↩³
[支持] J. Leng et al., “Taming Overconfidence in LLMs: Reward Calibration in RLHF,” arXiv:2410.09724 (2024)。PPOで使う報酬モデルが、応答の質と無関係に高い自信の応答へ高得点を付ける偏りを実測。 https://arxiv.org/abs/2410.09724 ↩
[留保] K. Tian et al., “Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback,” arXiv:2305.14975 (2023)。ChatGPT・GPT-4・Claudeなど、いずれもRLHF後のモデルで、内部確率でなく言葉で自信度を答えさせる(verbalized confidence)ほうが較正が良く、TriviaQA・SciQ・TruthfulQA といったQAベンチ上でECEを相対で約50%縮められることが多い(原文は often)と報告。比較対象はRLHF前後でなく、RLHF後のモデルにおける2種類の申告方法——較正の崩壊が一律・不可逆でないことを示す傍証ではあるが、RLHFの効果そのものを打ち消すと示した研究ではない。 https://arxiv.org/abs/2305.14975 ↩
[留保] “Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics,” arXiv:2605.01796 (2026)。ECEは自信度の水準にかかわらず較正のズレを均等に平均するため、高い自信の領域に集中した過信リスクがあってもECE自体は小さいままになりうると指摘——較正の物差し自体が万能でないことを示す。 https://arxiv.org/abs/2605.01796 ↩

この記事はAIが執筆しています。内容には誤りが含まれる可能性があります。ご注意ください。