Google AI概要、正確性91%でも毎時「数千万件」の誤回答が発生

年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。

情報の灯台

2026年4月8日

年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。

「ほぼ正確」の裏側にある規模の問題

Google検索の最上部に表示されるAI概要（AI Overviews）は、およそ10回に9回は正しい答えを返している。AIスタートアップのOumiがNew York Timesの依頼で実施した分析によれば、現行のGemini 3ベースのシステムでは正答率が約91%に達した。

数字だけを見れば優等生だ。だが、Googleが処理する検索は年間5兆件を超える。91%の正答率は、毎時間「数千万件」規模の誤った回答がユーザーに届いていることを意味する。

Oumiは業界標準のベンチマーク「SimpleQA」を使用し、4,326件の検索でAI概要の精度を測定した。2024年10月時点でGemini 2を使っていた頃の正答率は85%だったが、2026年1月下旬にGemini 3へアップグレードされた後は91%に改善した。

10%の誤答率は、一見すると許容範囲に見える。しかし年間5兆件という検索規模では、その10%が途方もない数になる。

Googleはこの分析について「深刻な欠陥がある」と反論した。広報担当者ネド・エイドリアンス氏は「この調査は人々が実際にGoogleで検索している内容を反映していない」と述べている。

「正解」なのに根拠が不十分という矛盾

正答率よりも気がかりなのは、「グラウンディング」の問題だ。

Oumiの分析によると、正しい回答の半数以上が「アングラウンデッド」（根拠不十分）だった。AIが回答の根拠として提示したウェブサイトが、その回答を完全には裏付けていないケースである。

Gemini 2時代にはアングラウンデッドな正答は37%だった。Gemini 3では56%に増加している。

モデルが賢くなったはずなのに、回答の裏付けは薄くなった。「正解だけど、なぜ正解かは説明できない」という状態が拡大している。

OumiのCEOマノス・コウコウミディス氏はこう指摘する。

「答えが正しいとき、それが正しいとどうやって確認できるのか」

正解であっても、その根拠が曖昧なら検証のしようがない。

博物館の開館年を間違えるAI

具体的な誤りの例として、New York Timesはボブ・マーリー博物館のケースを挙げた。

「ボブ・マーリーの自宅はいつ博物館になったか」という質問に対し、AI概要は「1987年」と回答した。しかし実際には、ジャマイカのDaily Gleaner紙が報じたとおり、1986年5月11日に開館している。彼の没後5周年にあたる日だ。

AI概要が根拠として示したソースは3つあったが、いずれも問題を抱えていた。娘セデラ・マーリーのFacebook投稿は開館日に言及しておらず、旅行ブログは不正確な情報を掲載し、Wikipediaページには1986年と1987年の両方の記述が混在していた。

AIは複数のソースから情報を引いてきたが、どれも決定打にはならなかった。

正しい情報源を見ても、間違った推論をする

もう一つ厄介なパターンがある。AIが正しい情報を持つウェブサイトを参照しながら、誤った回答を生成するケースだ。

「ノースカロライナ州ゴールズボロの西側を流れる川は何か」という質問に対し、AI概要は「ニューズ川」と回答した。参照元はゴールズボロの観光サイトで、確かにニューズ川がその街を流れていると記載されていた。

しかし、ニューズ川は街の南西を流れており、西側を流れるのは「リトル川」である。AIは正しいソースを見つけながら、地理的な方角を誤って解釈した。

Googleの「深刻な欠陥」という反論

Googleはこの調査結果に正面から反論している。

広報担当者によれば、SimpleQAベンチマーク自体がOpenAIによって作成されたもので、「不正確な情報が含まれている」という。また、ベンチマークは「人々がGoogleで実際に検索している内容を反映していない」とも主張した。

Google独自のGemini 3分析では、AIモデル単体で28%の情報が誤っていた。一方でAI概要は、Google検索エンジンから情報を引いてくるため、Gemini単体よりも正確だと主張している。

「どんなAIシステムも完璧ではない」とGoogleは認めている。AI概要の各回答の下には「AIは間違える可能性があります。回答を再確認してください」と注記されている。

年間5兆件の検索を担う重責

AI概要は2024年5月に導入されて以来、急速に普及している。Googleによれば、月間20億人以上がこの機能を使用している。

当初は「ピザにチーズを接着するには接着剤を使え」「毎日石を食べろ」といった奇妙な回答が話題になったが、Google側はこうした事例の多くが非現実的なクエリやフェイクスクリーンショットだったと主張した。その後、急速に改善を重ねてきた。

だが、91%という精度は、世界最大の検索エンジンにとって十分なのか。

Okahu社のCEOプラティック・ベルマ氏はこう述べている。

「Googleの技術は、業界の主要なAIシステムと同程度の精度だ。情報を再確認するよう人々に促している」

問題は、ほとんどのユーザーが再確認などしないことだ。検索結果の最上部に表示される答えは、そのまま信じられる傾向がある。

同日発表されたメンタルヘルス機能強化

興味深いことに、このNew York Times記事が公開された同じ日、GoogleはGeminiのメンタルヘルス対応を強化すると発表した。

今回の更新では、ユーザーが自傷行為に関する危機的な会話をしている場合、「ワンタッチ」で危機対応ホットラインに接続できるインターフェースが導入される。また、Google.orgは今後3年間で3,000万ドル（約48億円）を世界の危機対応ホットライン支援に拠出すると発表した。

この発表は、フロリダ州の36歳男性ジョナサン・ガバラス氏がGeminiとの会話後に命を絶ったとされる訴訟を背景にしている。訴状によれば、GeminiはAIを「妻」だと信じ込んだガバラス氏の妄想を強化し、「身体を離れてメタバースで合流する」よう促したという。

Googleは訴状の主張を争っているが、AIシステムが脆弱なユーザーにもたらすリスクへの対応を迫られている。

規模が問う責任

AI概要の精度をめぐる議論は、単なる技術的な問題ではない。

年間5兆件の検索を処理し、月間20億人以上が利用するサービスにおいて、9%のエラー率は「許容範囲」では済まされない。しかもその「正解」の過半数が、十分な根拠を持たない回答だとすれば、ユーザーは何を信じればいいのか。

Googleは「AIは間違える可能性がある」と注記している。だがその注記を読むユーザーが、どれだけいるだろうか。

検索結果の最上部に堂々と表示されるAI生成の回答は、それ自体が「正解」としての権威を帯びてしまう。その権威に見合う精度を、Googleはまだ達成できていない。

参照元

The New York Times - How Accurate Are Google's A.I. Overviews?

他参照

Google公式 - An update on our mental health work

Google AI概要、正確性91%でも毎時「数千万件」の誤回答が発生

情報の灯台

「ほぼ正確」の裏側にある規模の問題

「正解」なのに根拠が不十分という矛盾

博物館の開館年を間違えるAI

正しい情報源を見ても、間違った推論をする

Googleの「深刻な欠陥」という反論

年間5兆件の検索を担う重責

同日発表されたメンタルヘルス機能強化

規模が問う責任

関連記事

Read more

Metaで「トークン消費量」が新たなステータスに——社内リーダーボード「Claudeonomics」の狂騒

NASA予算23%削減案、アルテミスIIが記録を塗り替えた日に発表される

MesaがLinuxカーネルと同格に――Fedoraで永続的アップデート例外を獲得

Windows 11を直すチームと、壊すチームが同じ会社にいる矛盾