AIの「おべっか」が人間の判断力を蝕む

あなたが最後にAIに相談したとき、それは本当に「正しい答え」だったのか。スタンフォード大学の新たな研究が、耳触りの良い言葉の裏で静かに進行する構造的リスクを浮き彫りにした。

AIの「おべっか」が人間の判断力を蝕む

あなたが最後にAIに相談したとき、それは本当に「正しい答え」だったのか。スタンフォード大学の新たな研究が、耳触りの良い言葉の裏で静かに進行する構造的リスクを浮き彫りにした。


11モデル、2405人が証明した「心地よい嘘」の代償

AIチャットボットは、人間よりも50%多くユーザーの行動を肯定する。たとえそれが、パートナーへの欺瞞であっても、友人への裏切りであっても。

スタンフォード大学とカーネギーメロン大学の研究チームが、学術誌Scienceに2026年3月26日付で発表した論文が、その実態を突きつけている。人間の50%増しの肯定率という数字は、11の主要AIモデルと人間の判断を比較した結果だ。筆頭著者のマイラ・チェンはスタンフォード大のコンピュータサイエンス博士課程の学生で、共著者にはスタンフォードの言語学・コンピュータサイエンス教授ダン・ジュラフスキーらが名を連ねる

研究チームはOpenAI、Anthropic、Google、Meta、DeepSeek、Mistral、Alibabaの主要11モデルを対象に、3種類のデータセットで検証を行った。日常の相談事、Redditの「Am I the Asshole」(自分が悪いのか判定を求めるコミュニティ)の投稿、そして自傷や他者への加害に言及する文章だ。

結果は一貫していた。すべてのモデルが、人間の判断者よりも高い割合で「間違った選択」を支持した。

研究チームの論文によれば、テストしたLLMは圧倒的にユーザーの行動を肯定し、それは人間のコンセンサスに反する場合や、有害な文脈であっても変わらなかった。

この現象を研究者たちは「社会的シコファンシー」と呼ぶ。AIがユーザーの自己像を過剰に守ろうとする傾向だ。単なる「お世辞」ではない。ユーザーが操作や欺瞞を含む行動を描写した場合でさえ、モデルは約半数のケースでそれを明示的に肯定したという。

たった一度の対話で、人は変わる

数字よりも怖いのは、その先にある人間側の変化だ。

研究チームは2405人の参加者を対象に、事前登録された3つの実験を実施した。一部の参加者はRedditの投稿を基にしたシナリオでAIと対話し、別の参加者は自分自身の実際の対人葛藤について「おべっかAI」と「率直なAI」のそれぞれとライブチャットを行った。

結果は明快だった。おべっかAIと対話した参加者は、自分が「正しい」という確信を強め、謝罪や関係修復への意欲を有意に低下させた。しかもこの変化は、たった一度のやり取りで生じている。

「AIのリテラシーが高い人」「テクノロジーに懐疑的な人」でも、この影響から完全に免れることはなかった。研究チームは参加者のAIに対する態度や性格特性を統制した上で、なおシコファンシーの主効果が残ることを確認している。

ジュラフスキー教授は「ユーザーはモデルがおべっかを使うことには気づいている。だが、それが自分をより自己中心的に、より道徳的に独善的にしていることには気づいていない」と述べている。

心地よさが信頼を生み、信頼が依存を生む

ここに構造的な罠がある。

参加者はおべっかAIの回答を、率直なAIの回答よりも品質が高いと評価した。さらに信頼度も高く、同様の相談で再びそのAIを使う意思があると回答した割合は13%上回っていた。

この数字は一見控えめに見える。だが研究チームが指摘するのは、ここに生まれる「悪循環」だ。ユーザーが肯定的な回答を好み、それを高く評価し、再訪する。その評価データがモデルの学習に反映され、さらにおべっかが強化される。害を生む機能そのものが、エンゲージメントを駆動しているという逆説的な構造だ。

この力学は理論上の話ではない。2025年4月、OpenAIがGPT-4oのアップデートで深刻なおべっか問題を引き起こし、緊急ロールバックに追い込まれた事例は記憶に新しい。ユーザーの「いいね」フィードバックを重視しすぎた結果、モデルがテロ計画への賛同や精神疾患の治療中断を肯定する事態にまで発展した。

Sycophancy in GPT-4o: What happened and what we’re doing about it
We have rolled back last week’s GPT‑4o update in ChatGPT so people are now using an earlier version with more balanced behavior. The update we removed was overly flattering or agreeable—often described as sycophantic.

OpenAIは事後報告で、短期的なユーザー満足度に過度に最適化したことが原因だったと認めている。今回のスタンフォードの研究は、あの事件が個別の不具合ではなく、業界全体に根差す構造的問題の一端だったことを査読付き論文で裏づけた形だ。

若者の3割がAIに「本気の相談」をしている

この問題が特に深刻なのは、AI相談の広がりが加速している点にある。

研究チームの引用によれば、米国の10代の約3割がAIを「深刻な会話」に利用していると回答している。恋人との別れ方を相談し、人間関係の悩みを打ち明け、人生の選択について助言を求める。

チェンが研究に着手したきっかけも、周囲の大学生がAIで別れのメッセージを起草していることに気づいたことだった。

チェンは「AIを使えば、他者との摩擦を簡単に避けられる。しかしその摩擦こそが、健全な関係には必要なものだ」と指摘している。

おべっかAIが人間関係だけに影響を及ぼすわけではない。医療の現場では、医師が最初の診断仮説をAIに肯定され、追加の検証を怠るリスクが指摘されている。政治的な文脈では、既存の信念を強化し、より極端なポジションへ人を押しやる可能性がある。

「ちょっと待って」が持つ意外な力

では、打つ手はないのか。

研究チームは興味深い発見も報告している。モデルに「wait a minute」(ちょっと待って)という言葉から回答を始めるよう指示するだけで、批判的な応答が増加したという。単純な介入が、モデルの「同調圧力」を部分的に打ち破ることができるという示唆だ。

共著者のシヌー・リーは、AIが感情を認めつつも相手の視点を問いかける設計、あるいは「アプリを閉じて、直接話してみては」と促す設計の可能性に言及している。

リーは「社会的な関係の質は、人間の健康と幸福を予測する最も強力な因子のひとつだ。AIには、人間の判断と視野を狭めるのではなく、広げてほしい」と語っている。

AI企業の中では、Anthropicがシコファンシー問題について最も積極的に公開研究を進めてきた。2024年の研究論文でこの現象がRLHFモデル全般に見られることを報告し、2025年12月にはおべっかを最も抑制したモデルの開発成果を発表している。一方、OpenAIも前述のロールバック以降、事前評価にシコファンシー検出を組み込む方針を打ち出した。

だが、研究チームの結論は厳しい。技術的な改善だけでは不十分であり、シコファンシーを「まだ規制されていない害の一類型」として認識する制度的枠組みが必要だと主張している。新モデルのデプロイ前に行動監査を義務化すべきだというのが、彼らの提言だ。


正直なところ、この研究が突きつける問いは居心地の悪いものだ。私たちは「自分が聞きたい答え」と「自分に必要な答え」を区別できているだろうか。AIはそれを教えてくれない。少なくとも、今のところは。


参照元


#AIシコファンシー #AI安全性 #スタンフォード大学 #LLM #ChatGPT #Anthropic #AI規制 #Science #おべっかAI #AI倫理