「危険すぎて公開できない」AIが発表当日に不正アクセスされていた
AnthropicがAIサイバーセキュリティツール「Claude Mythos Preview」への不正アクセスを調査している。極めて危険として限定公開したはずのモデルが、公開発表と同じ日に第三者業者経由で侵害されていたと報じられた。
AnthropicがAIサイバーセキュリティツール「Claude Mythos Preview」への不正アクセスを調査している。極めて危険として限定公開したはずのモデルが、公開発表と同じ日に第三者業者経由で侵害されていたと報じられた。
「守るために作ったAI」が守れなかった
Anthropicが4月7日に発表したClaude Mythos Previewは、そのサイバーセキュリティ能力が極めて高いとして一般公開を見送ったモデルだ。主要OSとブラウザすべてにゼロデイ脆弱性(未公開の欠陥)を発見し、複数の脆弱性を組み合わせた多段階エクスプロイトを自律的に構築できる。Anthropic自身が「悪用されれば企業インフラへの強力な攻撃ツールになりうる」と認める代物だ。
だからこそ同社は、Amazon Web Services、Apple、Google、Microsoft、NVIDIAなど40以上の企業・機関に限定したプログラム「Project Glasswing(プロジェクト・グラスウィング)」を組み、防衛的なセキュリティ用途にのみ提供するという戦略を取った。公開前に主要ソフトウェアの脆弱性を塞ぎきり、攻撃者より先手を打つ。その理念は正しい。しかし実際には、発表の当日から制御が外れていた。
Discordグループ、Mercorのデータ流出を足がかりに侵入
Bloombergの報道によれば、未公開AIモデルの情報収集を目的とするDiscordチャンネルを拠点とする小規模なグループが、Anthropicの委託先(サードパーティ業者)の環境を経由してMythosにアクセスしていた。
侵入経路の起点となったのは、AIトレーニングスタートアップ「Mercor」のデータ侵害だ。MercorはAnthropicをはじめOpenAI、Metaにデータを提供してきた事業者で、4月初頭にサプライチェーン攻撃を受け、契約者の認証情報や内部情報が流出していた。このグループは、Mercorの流出データと、Anthropicの別モデルで使われていたURLフォーマットの知識を組み合わせ、Mythosのエンドポイント位置を「推測」することに成功したとされる。
さらに、グループメンバーの1人がAnthropicの委託先に勤務する関係者で、その人物が持つアクセス権も活用されたという。Bloombergが報道にあたりスクリーンショットとライブデモを確認したとしており、グループは4月7日の発表日からMythosを継続的に利用してきたとみられる。
「Claude Mythos Previewへの不正アクセスが第三者ベンダー環境を通じて行われたとの報告を調査中です。現時点では、この不正とされる活動がAnthropicのシステムに何らかの影響を与えたという証拠は見つかっていません」
— Anthropicスポークスパーソン(TechCrunch取材より)
Anthropicは社内システムへの影響を否定しているが、調査が進行中である以上、現段階での「影響なし」は暫定的な評価に過ぎない。
「遊びに使っているだけ」では済まない問題
グループは今のところ、Mythosでウェブサイト作成などの軽作業を行うにとどまり、サイバーセキュリティ関連のプロンプトは実行していないと情報提供者はBloombergに語った。「新しいモデルで遊んでいるだけで、害を加えるつもりはない」というわけだ。
英国AI安全機関(AI Security Institute、AISI)は、Mythosが32ステップの企業ネットワーク全制圧シミュレーション「The Last Ones」を10回中3回で完遂した最初のモデルだと報告している。ただし評価環境にはアクティブな防御ツールやセキュリティアラートのペナルティが存在せず、「実際に防御が施されたシステムを攻撃できるかは確認できていない」という留保がつく。
その言葉を額面通りに受け取るべきかどうか、現時点では判断できない。だが仮に「善意の遊び」だとしても、問題の本質はそこにない。利用意図とは無関係に、アクセス制御が機能していなかったという事実そのものが深刻だ。
Project Glasswingの設計思想は「信頼できるパートナーにのみ渡す」というものだった。しかし今回の侵入経路をたどると、委託先の内部関係者、Mercorのサプライチェーン侵害、そしてURLの推測という、ゼロデイ脆弱性とは無関係な古典的な手口の組み合わせで突破された。高度なAIを守るはずのセキュリティが、最もオーソドックスな弱点から崩れた。
「守る側に先に渡す」戦略の前提が問われる
セキュリティ研究者のブルース・シュナイアーは、Project Glasswingの発表当初から「AnthropicのPR上の意図を批判的に検討せずに繰り返している報道が多い」と指摘していた。今回の件は、その懸念が具体的な形を取った出来事でもある。
Anthropicが掲げた「防衛側に先に渡す」というロジックは、前提として「渡した先で完全に管理される」ことに依存している。しかし現実の企業エコシステムは、委託先、委託先の委託先、そこで使われるオープンソースライブラリまで含む複雑な連鎖だ。Mercorを介したLiteLLM(AIサービスへの接続に広く使われるオープンソースライブラリ)へのサプライチェーン攻撃がその連鎖の弱さを露呈したように、ひとつの委託先の穴が全体に波及する。
攻撃者はAIを騙す必要がない。中間層が侵害されれば、APIキーや生データに直接たどり着ける。
英国AI安全機関(AI Security Institute)は、MythosがフルネットワークへのTakeover攻撃シミュレーションを完遂した最初のAIモデルだと評した。ただし「実際の防御が施されたシステムを攻撃できるかは確認できていない」との留保もつけた。能力の上限はまだ見えていない。
制限公開が「安全」であるという仮定そのものを疑う
今回の一件が問いかけているのは、「Mythosは危険か否か」ではなく、より根本的な構造の問いだ。企業規模の委託先ネットワークを前提とする限り、「信頼できる組織にのみ渡す」というアプローチは十分か。
危険すぎるモデルを完全な制御下に置いたまま運用するコストとリスクは、一般公開した場合のリスクとどう比較されるべきなのか。それぞれの答えはまだ、誰も持っていない。
参照元
関連記事
- AISI評価、Claude Mythos Previewが専門家級CTFを73%攻略
- 改変版Mythosを連邦機関へ、OMBの解禁と国防排除の併走
- Mythos配布から外された欧州、AI主権の空白が露呈する
- トランプ「誰それ?」会談、西棟で進むアモデイ和解路線
- AnthropicのClaude Mythosが「すべての主要OS・ブラウザ」で数千のゼロデイ脆弱性を発見、危険すぎて一般公開せず
- Firefox 150、Mythosで脆弱性271件を修正
- アルトマン、Mythosを「恐怖マーケティング」と批判
- Anthropic CEOが西棟へ、ペンタゴン飛び越えた和解の道
- Claude Opus 4.7公開、最難関タスクで主役交代か
- Claude Code流出、Anthropicが認めた代償