Google AI概要、正確性91%でも毎時「数千万件」の誤回答が発生
年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。
年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。
「ほぼ正確」の裏側にある規模の問題
Google検索の最上部に表示されるAI概要(AI Overviews)は、およそ10回に9回は正しい答えを返している。AIスタートアップのOumiがNew York Timesの依頼で実施した分析によれば、現行のGemini 3ベースのシステムでは正答率が約91%に達した。
数字だけを見れば優等生だ。だが、Googleが処理する検索は年間5兆件を超える。91%の正答率は、毎時間「数千万件」規模の誤った回答がユーザーに届いていることを意味する。
Oumiは業界標準のベンチマーク「SimpleQA」を使用し、4,326件の検索でAI概要の精度を測定した。2024年10月時点でGemini 2を使っていた頃の正答率は85%だったが、2026年1月下旬にGemini 3へアップグレードされた後は91%に改善した。
10%の誤答率は、一見すると許容範囲に見える。しかし年間5兆件という検索規模では、その10%が途方もない数になる。
Googleはこの分析について「深刻な欠陥がある」と反論した。広報担当者ネド・エイドリアンス氏は「この調査は人々が実際にGoogleで検索している内容を反映していない」と述べている。
「正解」なのに根拠が不十分という矛盾
正答率よりも気がかりなのは、「グラウンディング」の問題だ。
Oumiの分析によると、正しい回答の半数以上が「アングラウンデッド」(根拠不十分)だった。AIが回答の根拠として提示したウェブサイトが、その回答を完全には裏付けていないケースである。
Gemini 2時代にはアングラウンデッドな正答は37%だった。Gemini 3では56%に増加している。
モデルが賢くなったはずなのに、回答の裏付けは薄くなった。「正解だけど、なぜ正解かは説明できない」という状態が拡大している。
OumiのCEOマノス・コウコウミディス氏はこう指摘する。
「答えが正しいとき、それが正しいとどうやって確認できるのか」
正解であっても、その根拠が曖昧なら検証のしようがない。
博物館の開館年を間違えるAI
具体的な誤りの例として、New York Timesはボブ・マーリー博物館のケースを挙げた。
「ボブ・マーリーの自宅はいつ博物館になったか」という質問に対し、AI概要は「1987年」と回答した。しかし実際には、ジャマイカのDaily Gleaner紙が報じたとおり、1986年5月11日に開館している。彼の没後5周年にあたる日だ。
AI概要が根拠として示したソースは3つあったが、いずれも問題を抱えていた。娘セデラ・マーリーのFacebook投稿は開館日に言及しておらず、旅行ブログは不正確な情報を掲載し、Wikipediaページには1986年と1987年の両方の記述が混在していた。
AIは複数のソースから情報を引いてきたが、どれも決定打にはならなかった。
正しい情報源を見ても、間違った推論をする
もう一つ厄介なパターンがある。AIが正しい情報を持つウェブサイトを参照しながら、誤った回答を生成するケースだ。
「ノースカロライナ州ゴールズボロの西側を流れる川は何か」という質問に対し、AI概要は「ニューズ川」と回答した。参照元はゴールズボロの観光サイトで、確かにニューズ川がその街を流れていると記載されていた。
しかし、ニューズ川は街の南西を流れており、西側を流れるのは「リトル川」である。AIは正しいソースを見つけながら、地理的な方角を誤って解釈した。
Googleの「深刻な欠陥」という反論
Googleはこの調査結果に正面から反論している。
広報担当者によれば、SimpleQAベンチマーク自体がOpenAIによって作成されたもので、「不正確な情報が含まれている」という。また、ベンチマークは「人々がGoogleで実際に検索している内容を反映していない」とも主張した。
Google独自のGemini 3分析では、AIモデル単体で28%の情報が誤っていた。一方でAI概要は、Google検索エンジンから情報を引いてくるため、Gemini単体よりも正確だと主張している。
「どんなAIシステムも完璧ではない」とGoogleは認めている。AI概要の各回答の下には「AIは間違える可能性があります。回答を再確認してください」と注記されている。
年間5兆件の検索を担う重責
AI概要は2024年5月に導入されて以来、急速に普及している。Googleによれば、月間20億人以上がこの機能を使用している。
当初は「ピザにチーズを接着するには接着剤を使え」「毎日石を食べろ」といった奇妙な回答が話題になったが、Google側はこうした事例の多くが非現実的なクエリやフェイクスクリーンショットだったと主張した。その後、急速に改善を重ねてきた。
だが、91%という精度は、世界最大の検索エンジンにとって十分なのか。
Okahu社のCEOプラティック・ベルマ氏はこう述べている。
「Googleの技術は、業界の主要なAIシステムと同程度の精度だ。情報を再確認するよう人々に促している」
問題は、ほとんどのユーザーが再確認などしないことだ。検索結果の最上部に表示される答えは、そのまま信じられる傾向がある。
同日発表されたメンタルヘルス機能強化
興味深いことに、このNew York Times記事が公開された同じ日、GoogleはGeminiのメンタルヘルス対応を強化すると発表した。
今回の更新では、ユーザーが自傷行為に関する危機的な会話をしている場合、「ワンタッチ」で危機対応ホットラインに接続できるインターフェースが導入される。また、Google.orgは今後3年間で3,000万ドル(約48億円)を世界の危機対応ホットライン支援に拠出すると発表した。
この発表は、フロリダ州の36歳男性ジョナサン・ガバラス氏がGeminiとの会話後に命を絶ったとされる訴訟を背景にしている。訴状によれば、GeminiはAIを「妻」だと信じ込んだガバラス氏の妄想を強化し、「身体を離れてメタバースで合流する」よう促したという。
Googleは訴状の主張を争っているが、AIシステムが脆弱なユーザーにもたらすリスクへの対応を迫られている。
規模が問う責任
AI概要の精度をめぐる議論は、単なる技術的な問題ではない。
年間5兆件の検索を処理し、月間20億人以上が利用するサービスにおいて、9%のエラー率は「許容範囲」では済まされない。しかもその「正解」の過半数が、十分な根拠を持たない回答だとすれば、ユーザーは何を信じればいいのか。
Googleは「AIは間違える可能性がある」と注記している。だがその注記を読むユーザーが、どれだけいるだろうか。
検索結果の最上部に堂々と表示されるAI生成の回答は、それ自体が「正解」としての権威を帯びてしまう。その権威に見合う精度を、Googleはまだ達成できていない。
参照元
他参照
関連記事
- AI検索でブランドを売り込む新SEO産業、ゴールドラッシュの内幕
- GoogleのAIがダークウェブを巡回する──精度98%の「脅威フィルター」は何を変えるのか
- IntelがGoogle・Amazonと先進パッケージングで交渉——数十億ドル契約へ
- Amazon・Microsoft・Googleに投資家が迫る、AIデータセンターの「水」開示
- AI評価の「3〜5人多数決」は不十分、Googleが示した新基準
- Anthropic、Google・Broadcomと数GW級TPU契約 売上は3倍超
- OpenAI・Anthropic・Googleが共闘、中国への「蒸留」流出で情報共有
- Samsung Messages、7月に終了──Google統合の最終章
- インド映画がAI全面導入、製作費5分の1の衝撃と代償
- AWS中東リージョン「完全ダウン」──Amazon社内文書で判明