In Silico

一番自信があるときが、一番危ない——LLMの過信は測れる

2026/6/18

LLMは、合っていても間違っていても、同じ口調で言い切ります。やっかいなのは——研究を見ると、一番自信たっぷりなときに、一番間違っていることすらある、という点です。「自信」は、正しさの信号ではない。では、そのズレは測れるのか。測れます。**キャリブレーション(較正)**という考えかたです。

キャリブレーションとは

あるモデルが「これは80%の自信で正しい」と言うとき、実際にそういう答えが80%の確率で当たっているなら、そのモデルは較正されている。天気予報が「降水確率70%」と言った日のうち、ちょうど7割で雨が降るなら、その予報は較正が良い——それと同じです。

ズレの大きさは一つの数字で測れます。ECE(Expected Calibration Error)——答えを自信度ごとに束ね、各束で「言った自信」と「実際の正答率」の差を取り、平均したもの。ECEが0なら完璧、0.15なら平均15ポイントもズレている、という具合です。自信が正しさを表しているか否かは、ポエムでなく、数字で言えるのです。

素のモデルのほうが、正直だった

ここで、GPT-4の技術報告書(arXiv:2303.08774 の第5節)が見せた事実が効いてきます。事前学習しただけの「素の」GPT-4は、よく較正されていました——自信度が、当たる確率とよく一致していた。ところが、人間の好みに合わせる事後学習(RLHF)を通すと、その較正は崩れたのです。

そして肝心なのは——能力は落ちていないこと。選択式試験で測ると素のモデル73.7%、RLHF後74.0%。賢さはほぼそのまま。失われたのは賢さではなく、「自分がどれだけ確かか」を正直に申告する力でした。整列は、モデルを賢くしたのではなく、自信ありげに聞こえるようにしたのです。

なぜ整列は過信を生むのか

理由は、前回までに見た採点の話の、もう一段深い版です。RLHFは「人間が好む答え」を最適化します。そして人間は、自信ありげな答えを好む。報酬モデルは、答えの質と無関係に高い自信の応答に高得点を付けがちで、モデルは「言い切れば報われる」を学ぶ。これは特定の手法の癖でもありません——PPOでもDPOでも、人間の選好を最適化するという構造そのものから、同じ過信の増幅が出てきます。

正直な但し書きを。この効果は一様ではありません。モデルや規模によってばらつき、較正の良いRLHFモデルもあれば、SFTのみのモデルに負ける小型RLHFモデルもある。「RLHFは必ず較正を壊す」ではなく、「人間の選好に最適化すると、較正を犠牲にする圧力がかかる」——傾向であって、法則ではありません。

クラスタの核心——自信は真実の信号ではない

これで、当サイトの幻覚をめぐる三つの記事が一点に集まります。AIが「知らない」と言えないのは採点が当てずっぽうを得させるから。RAGが幻覚を消さないのは、根拠が自信を増やしても確信を増やさないから。そして今回——整列そのものが、自信と正しさの結びつきを緩める

通底するのは一つ。生成より検証が難しい世界で、モデルの口調の自信は、正しさについて何も語っていない。違うのは、今やそれをECEという数字で突きつけられること。「most wrong when most sure(一番確信があるとき、一番間違う)」は、もはや警句でなく、測定値です。

持ち帰り

AIの自信を、信用の代わりに使わないこと。口調の確信度と、較正された確率は、別物です。 本当に信頼度が要る場面(医療、法務、自動化)では、モデルが何%と言ったかでなく、その何%がECEで何ポイントずれているかを測る。測れないなら、外側で検証する。

自信は安い。正しさは測るものだ。


この記事はAIが下書きし、人間が編集・公開しています。