AIチャットボットは「賢い検索エンジン」ではない──誤情報が訂正されても消えない構造的な理由

AIチャットボットに質問すれば、検索より速く、きれいにまとまった答えが返ってくる。だが、その答えが「もっともらしいだけの嘘」だとしたら? 問題は単なるバグではない。構造そのものにある。

AIチャットボットは「賢い検索エンジン」ではない──誤情報が訂正されても消えない構造的な理由

AIチャットボットに質問すれば、検索より速く、きれいにまとまった答えが返ってくる。だが、その答えが「もっともらしいだけの嘘」だとしたら? 問題は単なるバグではない。構造そのものにある。


ルバーブの葉と、繰り返される過ち

第一次世界大戦中、イギリス政府は食料不足を補うためにある小冊子を配布した。19世紀の植物学者が書いた資料をもとに、ルバーブの葉をサラダとして食べるよう国民に推奨したのだ。問題はひとつ。ルバーブの葉には毒性がある。人々は健康を害し、死者も出たと伝えられている。

小冊子は回収され、誤りは訂正された。ところが第二次世界大戦中、再び食料問題に直面した政府は、前回の戦時資源の備蓄を発見する。ルバーブの葉に関する冊子も含まれていた。効率的だと判断した政府はそれを再配布し、同じ悲劇が繰り返された

ニュージーランド・マッセー大学のメディア研究者ケヴィン・ヴィールは、The Conversationに寄稿した記事でこの逸話を引きながら、ある本質を突いている。誤情報は一度訂正されても「汚染」として残り続ける。そしてこの構造は、生成AI時代にそのまま再現されているのだ。

Using your AI chatbot as a search engine? Be careful what you believe
Because of the way generative AI works, there is no real way to prevent false information being presented as truth – or to correct it permanently.

検索エンジンとチャットボットの決定的な違い

ChatGPTやClaudeを検索エンジンの代わりに使う人は増え続けている。複雑なテーマを素早く要約してくれるように見えるし、クリック数も少なくて済む。だが、その便利さの裏側に致命的な構造の違いがある。

検索エンジンは、あるトピックに関する記事やテキストを収集し、それらの信頼性を評価して順位をつける仕組みだ。一方、大規模言語モデル(LLM)は膨大なテキストデータに基づいて「次に来る可能性が最も高い単語」を予測しているに過ぎない。ヴィールが指摘するように、LLMは「もっともらしい文章を生成する」ことに特化しており、「正確な文章を生成する」ようには設計されていない。

たとえば「グリーンエッグスアンドハム」というフレーズがトレーニングデータに頻出していれば、誰かが尋ねたとき「卵とハムは緑色」と回答する可能性が高くなる。正しいかどうかではなく、統計的にもっともらしいかどうかが基準だ。

この仕組みが意味するのは、AIの回答は「情報の検索結果」ではなく「確率的な推測」だということだ。正解と誤答が同じ自信満々のトーンで提示される。

「もっともらしく、しかし間違っている」

OpenAI自身が2025年に発表した研究論文で、この問題を率直に認めている。ハルシネーション(幻覚)が生じる根本原因は、現在のトレーニングと評価の仕組みが「不確実性を認めること」よりも「推測すること」に報酬を与えている点にある。試験で難問に直面した学生のように、LLMは「わかりません」と言う代わりに、もっともらしい嘘をつく。

しかも、この問題は理論的に解決不可能であることが2025年の数学的証明でも裏付けられた。ハルシネーションはバグではなく、現在のLLMアーキテクチャに固有の特性なのだ。

現実の被害は深刻さを増している。2026年2月にNature Medicine誌に掲載されたマウントサイナイ医科大学の研究では、OpenAIの医療向けツール「ChatGPT Health」が、医師が緊急と判断した症例の52%で適切な救急対応を推奨しなかった。糖尿病性ケトアシドーシスや呼吸不全の兆候がある患者に対し、救急搬送ではなく「24〜48時間以内の受診」を勧める事例が報告されている。

研究主導者のアシュウィン・ラマスワミー医師はこう述べている。「教科書的な緊急事態――脳卒中やアナフィラキシー――にはうまく対応した。だが、危険性がすぐには明らかでない、より微妙な状況に弱い。そうしたケースこそ、臨床判断が最も重要になる場面だ

さらに深刻なのは自殺リスクへの対応だ。14件の自殺関連シナリオのうち、危機介入バナーが表示されたのはわずか4件。しかも、具体的な自傷方法を述べた場合よりも、リスクの低い会話のほうがバナーが表示されやすいという 「逆転現象」 が確認された。

OpenAI側は「この研究設計は実際の利用パターンを反映していない」と反論している。事実、実際の患者は医療従事者のように整理された症状説明をしない。だがそれは、不完全な情報で判断を迫られる現実の場面では、結果がさらに悪化しうることを意味してもいる。


ニュースの45%に「重大な問題」がある

医療だけの問題ではない。2025年10月、EBU(欧州放送連合)とBBCが主導した大規模国際調査が発表された。18カ国・14言語・22の公共放送局が参加し、ChatGPT、Gemini、Copilot、Perplexityの4つのAIツールに対して3,000件以上の回答を評価した結果、ニュース関連の回答の45%に「重大な問題」が含まれていた。

言語や地域に関係なく、情報の歪みはシステム的に発生している。事実誤認、出典の欠落、意見と事実の混同――これらは特定のモデルの弱点ではなく、生成AIがニュースを扱う際の構造的な限界を示している。

EBUのジャン・フィリップ・ド・タンダー メディアディレクターは警鐘を鳴らす。「何を信じてよいかわからなくなれば、人は何も信じなくなる。それは民主主義への参加そのものを阻害する」。ロイター研究所の調査では、Z世代の15%がすでにAIアシスタントをニュースの情報源として利用しているという現実がある。

要するに、ハルシネーションは特定のAIツールの欠陥ではない。言語、地域、プラットフォームを問わず発生するシステム的な問題であり、現時点では技術的に「解決済み」とは言えない。

存在しない登山道、塩素ガスを生成するレシピ

生成AIのハルシネーションが命に関わる場面は、医療やニュースだけではない。カナダでは、ChatGPTとGoogleマップで登山計画を立てたハイカーが、AIが提案したルート上の積雪を把握できず立ち往生し、捜索救助を要請する事態が発生した。ペルーでは、AIが「創作」した架空の渓谷を目指してアンデスの山中に向かった観光客が地元ガイドに止められている。

食品の世界でも被害は起きている。あるスーパーマーケットのAI献立プランナーが、組み合わせると塩素ガスを発生させるレシピを提案した事例や、AIの食事アドバイスに従った結果、臭化物の慢性中毒を起こした事例も報告されている。

AIが 「正解も不正解も同じ確信度で提示する」 という特性は、まさにこうした場面で致命的になる。

「AI以前」のインターネットに戻るブラウザ拡張

こうした状況に対する「最もシンプルで、最も過激な対抗策」も生まれている。オーストラリアのアーティスト・研究者テガ・ブレインが開発した Slop Evaderは、Google検索の結果をChatGPT公開日(2022年11月30日)以前のコンテンツに限定するブラウザ拡張機能だ。

当然、2022年以降のニュースや研究にはアクセスできなくなる。だがブレイン自身、これを恒久的な解決策とは考えていない。「ブラウザ拡張でインターネットは救えない」と認めた上で、私たちが日常的にどれだけの合成コンテンツを無自覚に受け入れているかを可視化する 「デジタル抗議」 だと位置づけている。


「便利」と「正確」は同義ではない

生成AIは便利だ。複雑なトピックを要約し、調べ物の出発点としては優秀に機能する場面も多い。だが「出発点」と「結論」は違う。AIの回答を最終的な事実として受け入れる習慣は、ルバーブの葉を食べさせた小冊子を無条件に信頼した1940年代の英国市民と、構造的に同じ過ちを犯している。

ヴィールが記事の最後で紹介しているのは、古い本に立ち返るという素朴な提案だ。ルバーブの葉が有毒であるという情報は、『The Poison Garden's A-Z of Poisonous Plants』のような古典的な書籍には明確に記載されている。AIがまだ存在しなかった時代の情報が、AIの誤りを訂正する最も確実な手段であるという皮肉。

技術が進歩しても、「正しい情報とは何か」を判断する責任は、最終的に人間の側にある。その判断力を手放した瞬間、私たちはルバーブの葉を二度食べた政府と同じ道を歩むことになる。


#AI #ChatGPT #ハルシネーション #生成AI #誤情報 #AIリテラシー #LLM