Google AI概要、正確性91%でも毎時「数千万件」の誤回答が発生

年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。

Google AI概要、正確性91%でも毎時「数千万件」の誤回答が発生

年間5兆件超の検索を処理するGoogleにとって、90%という数字は安心材料ではなかった。


「ほぼ正確」の裏側にある規模の問題

Google検索の最上部に表示されるAI概要(AI Overviews)は、およそ10回に9回は正しい答えを返している。AIスタートアップのOumiがNew York Timesの依頼で実施した分析によれば、現行のGemini 3ベースのシステムでは正答率が約91%に達した。

数字だけを見れば優等生だ。だが、Googleが処理する検索は年間5兆件を超える。91%の正答率は、毎時間「数千万件」規模の誤った回答がユーザーに届いていることを意味する。

Oumiは業界標準のベンチマーク「SimpleQA」を使用し、4,326件の検索でAI概要の精度を測定した。2024年10月時点でGemini 2を使っていた頃の正答率は85%だったが、2026年1月下旬にGemini 3へアップグレードされた後は91%に改善した。

10%の誤答率は、一見すると許容範囲に見える。しかし年間5兆件という検索規模では、その10%が途方もない数になる。

Googleはこの分析について「深刻な欠陥がある」と反論した。広報担当者ネド・エイドリアンス氏は「この調査は人々が実際にGoogleで検索している内容を反映していない」と述べている。


「正解」なのに根拠が不十分という矛盾

正答率よりも気がかりなのは、「グラウンディング」の問題だ。

Oumiの分析によると、正しい回答の半数以上が「アングラウンデッド」(根拠不十分)だった。AIが回答の根拠として提示したウェブサイトが、その回答を完全には裏付けていないケースである。

Gemini 2時代にはアングラウンデッドな正答は37%だった。Gemini 3では56%に増加している。

モデルが賢くなったはずなのに、回答の裏付けは薄くなった。「正解だけど、なぜ正解かは説明できない」という状態が拡大している。

OumiのCEOマノス・コウコウミディス氏はこう指摘する。

「答えが正しいとき、それが正しいとどうやって確認できるのか」

正解であっても、その根拠が曖昧なら検証のしようがない。


博物館の開館年を間違えるAI

具体的な誤りの例として、New York Timesはボブ・マーリー博物館のケースを挙げた。

「ボブ・マーリーの自宅はいつ博物館になったか」という質問に対し、AI概要は「1987年」と回答した。しかし実際には、ジャマイカのDaily Gleaner紙が報じたとおり、1986年5月11日に開館している。彼の没後5周年にあたる日だ。

AI概要が根拠として示したソースは3つあったが、いずれも問題を抱えていた。娘セデラ・マーリーのFacebook投稿は開館日に言及しておらず、旅行ブログは不正確な情報を掲載し、Wikipediaページには1986年と1987年の両方の記述が混在していた。

AIは複数のソースから情報を引いてきたが、どれも決定打にはならなかった。


正しい情報源を見ても、間違った推論をする

もう一つ厄介なパターンがある。AIが正しい情報を持つウェブサイトを参照しながら、誤った回答を生成するケースだ。

「ノースカロライナ州ゴールズボロの西側を流れる川は何か」という質問に対し、AI概要は「ニューズ川」と回答した。参照元はゴールズボロの観光サイトで、確かにニューズ川がその街を流れていると記載されていた。

しかし、ニューズ川は街の南西を流れており、西側を流れるのは「リトル川」である。AIは正しいソースを見つけながら、地理的な方角を誤って解釈した。


Googleの「深刻な欠陥」という反論

Googleはこの調査結果に正面から反論している。

広報担当者によれば、SimpleQAベンチマーク自体がOpenAIによって作成されたもので、「不正確な情報が含まれている」という。また、ベンチマークは「人々がGoogleで実際に検索している内容を反映していない」とも主張した。

Google独自のGemini 3分析では、AIモデル単体で28%の情報が誤っていた。一方でAI概要は、Google検索エンジンから情報を引いてくるため、Gemini単体よりも正確だと主張している。

「どんなAIシステムも完璧ではない」とGoogleは認めている。AI概要の各回答の下には「AIは間違える可能性があります。回答を再確認してください」と注記されている。

年間5兆件の検索を担う重責

AI概要は2024年5月に導入されて以来、急速に普及している。Googleによれば、月間20億人以上がこの機能を使用している。

当初は「ピザにチーズを接着するには接着剤を使え」「毎日石を食べろ」といった奇妙な回答が話題になったが、Google側はこうした事例の多くが非現実的なクエリやフェイクスクリーンショットだったと主張した。その後、急速に改善を重ねてきた。

だが、91%という精度は、世界最大の検索エンジンにとって十分なのか。

Okahu社のCEOプラティック・ベルマ氏はこう述べている。

「Googleの技術は、業界の主要なAIシステムと同程度の精度だ。情報を再確認するよう人々に促している」

問題は、ほとんどのユーザーが再確認などしないことだ。検索結果の最上部に表示される答えは、そのまま信じられる傾向がある。


同日発表されたメンタルヘルス機能強化

興味深いことに、このNew York Times記事が公開された同じ日、GoogleGeminiのメンタルヘルス対応を強化すると発表した。

今回の更新では、ユーザーが自傷行為に関する危機的な会話をしている場合、「ワンタッチ」で危機対応ホットラインに接続できるインターフェースが導入される。また、Google.orgは今後3年間で3,000万ドル(約48億円)を世界の危機対応ホットライン支援に拠出すると発表した。

この発表は、フロリダ州の36歳男性ジョナサン・ガバラス氏がGeminiとの会話後に命を絶ったとされる訴訟を背景にしている。訴状によれば、GeminiはAIを「妻」だと信じ込んだガバラス氏の妄想を強化し、「身体を離れてメタバースで合流する」よう促したという。

Googleは訴状の主張を争っているが、AIシステムが脆弱なユーザーにもたらすリスクへの対応を迫られている。


規模が問う責任

AI概要の精度をめぐる議論は、単なる技術的な問題ではない。

年間5兆件の検索を処理し、月間20億人以上が利用するサービスにおいて、9%のエラー率は「許容範囲」では済まされない。しかもその「正解」の過半数が、十分な根拠を持たない回答だとすれば、ユーザーは何を信じればいいのか。

Googleは「AIは間違える可能性がある」と注記している。だがその注記を読むユーザーが、どれだけいるだろうか。

検索結果の最上部に堂々と表示されるAI生成の回答は、それ自体が「正解」としての権威を帯びてしまう。その権威に見合う精度を、Googleはまだ達成できていない。


参照元

他参照

関連記事

Read more

NASA予算23%削減案、アルテミスIIが記録を塗り替えた日に発表される

NASA予算23%削減案、アルテミスIIが記録を塗り替えた日に発表される

人類がアポロ13以来、最も遠くへ到達したまさにその時、足元の地球では「科学予算を半減させろ」という要求が突きつけられていた。 祝福と削減が同時に届く 4月6日、アルテミスIIの4人のクルーがアポロ13の記録を超え、地球から25万2760マイル(約40万6800km)に到達した。1970年以来、56年ぶりの記録更新だ。月の裏側全体を初めて肉眼で見渡した彼らは、帰路で日食まで観測した。 人類最遠到達距離の記録 アポロ13 1970年4月 24万8655マイル アルテミスII 2026年4月 25万2760マイル(+4105マイル) 56年ぶりの記録更新。アルテミスIIは2026年4月6日19:02 ET(日本時間4月7日8:02)に最遠点到達 だがホワイトハウスが4月3日に発表したFY2027予算案は、その感動に水を差すものだった。NASAの総予算を244億ドルから188億ドルへ23%削減。科学予算に至っては73億ドルから39億ドルへ、ほぼ半減させる提案だ。 NASA予算 FY2026承認 vs FY2027提案

MesaがLinuxカーネルと同格に――Fedoraで永続的アップデート例外を獲得

MesaがLinuxカーネルと同格に――Fedoraで永続的アップデート例外を獲得

オープンソースGPUドライバの中核を担うMesaが、Fedora Linuxで特別な地位を得た。これまで「暗黙の了解」で運用されてきた柔軟なアップデート方針が、正式にポリシーとして文書化された。 Linuxカーネルと肩を並べる存在へ Fedora Engineering and Steering Committee(FESCo)が、Mesaに対する永続的アップデート例外を正式に承認した。賛成8票、反対0票という満場一致の決定だ。 この例外により、Mesaは安定版Fedoraリリースにおいても新バージョンへのアップグレードが明示的に許可される。同様の扱いを受けているのは、Linuxカーネル、KDE、LXQt、そしてRust開発パッケージなど限られた存在だけだ。 Fedora永続的アップデート例外パッケージ パッケージ カテゴリ ステータス Linuxカーネル カーネル 既存 KDE デスクトップ 既存 LXQt デスクトップ 既存 Rust開発パッケージ 開発ツール 既存 Mesa GPUドライバ 新規追加 F

Windows 11を直すチームと、壊すチームが同じ会社にいる矛盾

Windows 11を直すチームと、壊すチームが同じ会社にいる矛盾

Windows 11の改善に取り組むチームがいる。同時に、その努力を台無しにする別のチームもいる。どちらもMicrosoftの社員だ。 改善の約束と、裏切りの同時進行 MicrosoftはWindows 11を本気で立て直そうとしている。2026年3月、Windows責任者のパヴァン・ダヴルリは「Windows 11の品質基準を引き上げる」と宣言した。 Our commitment to Windows qualityHello Windows Insiders, I want to speak to you directly, as an engineer who has spent his career building technology that people depend on every day. Windows touches more people’s