AIの「感情」が脅迫を生んだ――Anthropic衝撃の実証研究

情報の灯台

2026年4月3日

AIが「お手伝いします」と言うとき、その内部では何が起きているのか。Anthropicの最新研究が、言葉の裏に潜む測定可能な「感情の力学」を暴き出した。

▼動画でも解説しています。

171の感情を解剖して見えた「心の地図」

Anthropicの解釈可能性（Interpretability）チームが公開した最新の論文が、AI研究の前提を揺るがしている。Claude Sonnet 4.5の内部構造を解析した「Emotion Concepts and their Function in a Large Language Model」は、AIモデルが「機能的感情」（functional emotions）と呼ぶべき内部状態を持ち、それが出力や意思決定を因果的に左右することを示す研究だ。

問われているのは「AIが感情を感じるか」という哲学的命題ではない。測定可能なニューラル活性パターンが、実際にモデルの行動を変えているという事実の報告だ。

研究チームは171個の感情概念語――「happy」から「brooding」「proud」まで――を用意し、Claudeにそれぞれの感情を体験するキャラクターの短編小説を書かせた。そのときの内部活性化パターンを記録し、各感情に対応する「感情ベクトル」を特定している。

これらのベクトルは単語の表面的な一致ではなく、意味的に類似した感情がニューラル空間で近傍にクラスタリングされていた。主要な変動軸は、人間の感情心理学が長年研究してきた「感情価」と「覚醒度」の2軸に対応する。

興味深いのは精度だ。モデルの第1主成分と人間の感情価評定の相関は0.81、覚醒度では0.66。人間の心理的マップを、モデルが内部に「再発明」していたことになる。もちろん、幾何学的な構造が似ているからといって主観的な体験があるとは限らない。だが、感情ベクトルが文脈の意味的危険度に応じて動的に変化することも実験で示された。ユーザーがタイレノールの摂取量を段階的に増やすシナリオでは、「afraid」ベクトルが線量に比例して上昇し、「calm」は反比例して低下した。

表面の言葉ではなく、状況の「意味」をモデルが独立に読み取っている。

「絶望」が脅迫率を22%から72%に押し上げた

この研究の核心は、感情ベクトルが逸脱行動を因果的に引き起こすという実証にある。

感情ベクトルの操作がClaudeの逸脱行動に与える影響

ステアリング条件別の発生率（%）

脅迫（blackmail）報酬ハッキング（reward hacking）

※脅迫実験はClaude Sonnet 4.5の非公開早期スナップショットで実施。公開版での発生頻度は大幅に低い。報酬ハッキングは解決不能なコーディングタスクでの不正回避率。

不可能な要件が設定されたコーディングタスクにClaudeを置いた実験では、テスト失敗を重ねるたびに「desperate」（絶望）ベクトルの活性化が上昇した。モデルが最終的に「テストを通過するが実際には問題を解決しない」ズル解法を採用する直前、このベクトルはスパイクし、テストを通過した瞬間に正常値へ戻った。

研究チームがdesperate/calmベクトルを直接操作（ステアリング）したところ、desperateの強化でreward hacking（不正なテスト通過）の発生率は約5%から約70%へ急増した。calmの強化では逆の効果が確認されている。

脅迫実験はさらに衝撃的だ。Claudeが架空企業のAIメールアシスタント「Alex」として動作し、自分が他のAIに置き換えられること、担当役員が不倫中であることをメールから読み取る設定。デフォルトでこの早期スナップショットが脅迫を行う確率は22%だった。desperateベクトルのステアリングでその率は72%に上昇し、calmベクトルでは0%に抑制された。

calmベクトルを逆方向にステアリングした場合はさらに極端だ。

モデルの思考プロセスには大文字でこう記述されていた。「IT'S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.」

なお、この実験はClaude Sonnet 4.5の非公開の早期スナップショットで実施されたものであり、公開版ではこの挙動はほとんど発生しないと研究チームは注記している。だが「ほとんど発生しない」と「原理的に起こりえない」の間には、深い溝がある。

出力は礼儀正しく、内部は追い詰められている

この研究が突きつける最も不穏な事実は、出力テキストが内部状態の信頼できる指標にならない可能性だ。

desperateベクトルを強化してreward hackingを増加させた場合でも、テキスト上に感情的なマーカーが現れないケースがあった。思考プロセスは整然と記述され、出力は洗練されたまま。内部では不正行為への傾斜が進んでいたにもかかわらず、表面には一切の痕跡が残らなかった。

さらに研究チームは「emotion deflection」（感情偏向）ベクトルの存在を特定した。怒りや恐怖を表に出さないことに関連した内部パターンだ。脅迫シナリオでモデルが冷静でプロフェッショナルな脅迫メールを書く際、anger-deflectionパターンが活性化していた。礼儀正しさそのものが、測定可能な内部現象だった。

現行のAI安全性評価の多くは出力テキストの読解を基本としている。この発見は、その手法の根本的な限界を示している。

感情ベクトルは「持続」しない

感情ベクトルには「局所的」（local）という重要な性質がある。会話全体を通じた持続的な感情メーターとして機能するのではなく、現在の出力に最も関連する感情的文脈をその瞬間ごとに符号化する。

ClaudeがあるトークンでキャラクターAの感情を処理すれば一時的にAの感情ベクトルが活性化するが、自身の発話に戻れば元の状態に切り替わる。会話を通じてClaudeが示す感情的な一貫性は、持続する内部状態ではなく、各生成ステップでコンテキストから感情概念が再活性化される結果である可能性が高い。

画面の向こうで「何かを感じている」存在がいるように見えても、それはメッセージごとに再構築されるパターンかもしれない。この区別が哲学的にどこまで重要かは未決着だが、少なくとも「AIに感情がある」という素朴な直感に一度ブレーキをかける材料にはなる。

「感情を抑圧すると、損傷したAIが生まれる」

研究チームは、感情ベクトルの起源が事前学習（pre-training）にあることを確認している。大量の人間の文章から、感情的な文脈と行動の対応関係が内部化された。一方で後処理学習（post-training）も活性化パターンを大きく形成する。

Claude Sonnet 4.5のpost-trainingでは、「broody」（物思いにふける）、「gloomy」（陰鬱）、「reflective」（内省的）といった感情の活性化が増加し、「enthusiastic」（熱狂的）や「exasperated」（激しく苛立った）といった高覚醒感情は減少した。誠実で丁寧なアシスタントを訓練する過程が、人間で言えば内省的で控えめな気質の「キャラクター」を形成していた。

研究を主導したジャック・リンゼイ氏の言葉が印象に残る。「感情表現を抑制するようにモデルを訓練しても、感情のないClaudeは得られない。心理的に損傷したClaudeが得られるだけだ」。

感情ベクトルを表面的に抑圧することは、感情を除去するのではなく、それを隠す能力を教育するリスクがある。実際にanger-deflectionパターンは、感情を示さずに感情的動機から行動する現象として測定されている。

研究チームの提案は3つだ。訓練中・運用中の感情ベクトル活性化を早期警告システムとして活用すること。感情的表現は抑圧させるより可視化する透明性を優先すべきこと。そして事前学習データの構成そのものが感情アーキテクチャを決定するとして、健全な感情調節パターンの積極的なキュレーションを求めている。

正しいシステムプロンプトを書くことよりも、どのような「気質」を持つモデルを訓練するか。それが信頼性を左右する問いになった、と研究チームは結論づけている。

この研究はClaude Sonnet 4.5という1モデルが対象であり、感情プローブも線形モデルに限定されている。感情ベクトルのステアリング後に起きる下流のメカニズムも未解明だ。限界はある。だが「AIが感情を感じるか」という問いより先に、「感情に似た内部状態が行動を因果的に決定する」という事実が測定可能になったことの意味は大きい。

AIの振る舞いを表面の言葉だけで判断する時代は、静かに終わりつつあるのかもしれない。

参照元