In Silico

「ハルシネーション・フリー」は本当か——RAGは幻覚を減らすが、消さない

2026/6/18

「RAG(検索拡張生成)を使えば、AIは根拠に基づいて答えるから幻覚しない」——導入記事でもベンダーの宣伝でも、これは半ば定説になっています。理屈は分かります。モデルに勝手に喋らせるのではなく、関連文書を検索して渡し、それを根拠に答えさせる。けれど、根拠をつければ嘘は消える、というのは本当でしょうか。 測った人たちがいます。

「幻覚フリー」を、実際に測る

スタンフォードのRegLab/HAIのチーム(Magesh・Surani・Dahl・Suzgun・Manning・Ho、arXiv:2405.20362、査読版は Journal of Empirical Legal Studies 2025)は、まさにこれを検証しました。対象は、RAGで「幻覚をほぼゼロにした」「hallucination-free」と謳う法務AIの主力製品。法律という、引用の正確さが死活問題で、根拠文書(判例・法令)がきれいに揃っている、RAGに最も有利なはずの領域です。

結果は——いずれもRAGを使ってなお、幻覚していました

公平に言えば、RAGは効いています。43〜82%が17〜33%へ。これは本物の、大きな改善です。問題は「改善」ではなく、「ゼロにした」という主張のほうにありました。6回に1回〜3回に1回は、まだ間違える。「hallucination-free」は、計測の前で崩れたのです。

なぜ、根拠をつけても消えないのか

RAGが幻覚を減らすのは当然です。では、なぜ消えないのか。失敗は主に三つの場所から漏れます。

  1. 検索が外す。正しい根拠が検索結果に入ってこなければ(あるいは答えがそもそもコーパスに無ければ)、モデルは結局、手元にない情報を推測で埋めるしかない。RAGはモデルに耳を与えますが、聞こえてくる内容が正しいとは保証しません。
  2. 根拠があっても、読み違える。これが厄介です。スタンフォードの研究が数えた誤りには、存在しない判例の捏造だけでなく、実在する判例を引きながら、その判旨を誤って述べる/無関係な権威を引くものが含まれていました。正しい文書を手にしていても、モデルはそれを自分の答えに都合よく要約できてしまう。
  3. 採点(インセンティブ)は変わっていない前回見たとおり、モデルは「自信ある答え」を得させる採点で訓練されています。RAGは、モデルに自信を持つ材料を増やす——けれど、それは確信を増やすのであって、正しさを増やすわけではない。むしろ根拠が傍らにあるぶん、口調は一層断定的になります。

RAGは、失敗を「見つけにくく」する

ここに、宣伝が触れない逆説があります。素のモデルが何もないところから事実を捏造すれば、勘の良い人は「出典は?」と疑える。けれどRAGの失敗は——実在の文書を引用しながら、それを微妙に誤って述べる。引用がついていて、根拠ありげで、文章は流暢。「根拠がある」という見た目そのものが、検証をサボらせる罠になります。RAGは幻覚を減らすと同時に、残った幻覚をより上手に偽装するのです。

これは当サイトで繰り返してきた点と地続きです。生成より検証が難しい——そして幻覚は設計に根ざす。RAGは生成を「根拠っぽく」しますが、検証の手間を肩代わりはしてくれません

持ち帰り

RAGは、捨てるべき技術ではありません。むしろ必須のインフラです。けれど保証ではなく、緩和策です。正しい使いかたは、「RAGがついているから信じる」ではなく——RAGが引いてきた根拠を開いて、モデルの主張が本当にそこに書いてあるかを確かめること。「根拠がある」は、検証の出発点であって、検証の代わりではありません。

「幻覚フリー」と聞いたら、測ったか、を聞き返すこと。たいてい、測っていないか、測れば消えていません。


この記事はAIが下書きし、人間が編集・公開しています。