「危険すぎて公開できない」AIが発表当日に不正アクセスされていた

AnthropicがAIサイバーセキュリティツール「Claude Mythos Preview」への不正アクセスを調査している。極めて危険として限定公開したはずのモデルが、公開発表と同じ日に第三者業者経由で侵害されていたと報じられた。

「危険すぎて公開できない」AIが発表当日に不正アクセスされていた

AnthropicAIサイバーセキュリティツール「Claude Mythos Preview」への不正アクセスを調査している。極めて危険として限定公開したはずのモデルが、公開発表と同じ日に第三者業者経由で侵害されていたと報じられた。


「守るために作ったAI」が守れなかった

Anthropicが4月7日に発表したClaude Mythos Previewは、そのサイバーセキュリティ能力が極めて高いとして一般公開を見送ったモデルだ。主要OSとブラウザすべてにゼロデイ脆弱性(未公開の欠陥)を発見し、複数の脆弱性を組み合わせた多段階エクスプロイトを自律的に構築できる。Anthropic自身が「悪用されれば企業インフラへの強力な攻撃ツールになりうる」と認める代物だ。

だからこそ同社は、Amazon Web Services、AppleGoogleMicrosoftNVIDIAなど40以上の企業・機関に限定したプログラム「Project Glasswingプロジェクト・グラスウィング)」を組み、防衛的なセキュリティ用途にのみ提供するという戦略を取った。公開前に主要ソフトウェアの脆弱性を塞ぎきり、攻撃者より先手を打つ。その理念は正しい。しかし実際には、発表の当日から制御が外れていた。

Discordグループ、Mercorのデータ流出を足がかりに侵入

Bloombergの報道によれば、未公開AIモデルの情報収集を目的とするDiscordチャンネルを拠点とする小規模なグループが、Anthropicの委託先(サードパーティ業者)の環境を経由してMythosにアクセスしていた。

侵入経路の起点となったのは、AIトレーニングスタートアップ「Mercor」のデータ侵害だ。MercorはAnthropicをはじめOpenAIMetaにデータを提供してきた事業者で、4月初頭にサプライチェーン攻撃を受け、契約者の認証情報や内部情報が流出していた。このグループは、Mercorの流出データと、Anthropicの別モデルで使われていたURLフォーマットの知識を組み合わせ、Mythosのエンドポイント位置を「推測」することに成功したとされる。

さらに、グループメンバーの1人がAnthropicの委託先に勤務する関係者で、その人物が持つアクセス権も活用されたという。Bloombergが報道にあたりスクリーンショットとライブデモを確認したとしており、グループは4月7日の発表日からMythosを継続的に利用してきたとみられる。

「Claude Mythos Previewへの不正アクセスが第三者ベンダー環境を通じて行われたとの報告を調査中です。現時点では、この不正とされる活動がAnthropicのシステムに何らかの影響を与えたという証拠は見つかっていません」

— Anthropicスポークスパーソン(TechCrunch取材より)

Anthropicは社内システムへの影響を否定しているが、調査が進行中である以上、現段階での「影響なし」は暫定的な評価に過ぎない。

「遊びに使っているだけ」では済まない問題

グループは今のところ、Mythosでウェブサイト作成などの軽作業を行うにとどまり、サイバーセキュリティ関連のプロンプトは実行していないと情報提供者はBloombergに語った。「新しいモデルで遊んでいるだけで、害を加えるつもりはない」というわけだ。

英国AI安全機関(AI Security Institute、AISI)は、Mythosが32ステップの企業ネットワーク全制圧シミュレーション「The Last Ones」を10回中3回で完遂した最初のモデルだと報告している。ただし評価環境にはアクティブな防御ツールやセキュリティアラートのペナルティが存在せず、「実際に防御が施されたシステムを攻撃できるかは確認できていない」という留保がつく。

その言葉を額面通りに受け取るべきかどうか、現時点では判断できない。だが仮に「善意の遊び」だとしても、問題の本質はそこにない。利用意図とは無関係に、アクセス制御が機能していなかったという事実そのものが深刻だ。

Project Glasswingの設計思想は「信頼できるパートナーにのみ渡す」というものだった。しかし今回の侵入経路をたどると、委託先の内部関係者、Mercorのサプライチェーン侵害、そしてURLの推測という、ゼロデイ脆弱性とは無関係な古典的な手口の組み合わせで突破された。高度なAIを守るはずのセキュリティが、最もオーソドックスな弱点から崩れた。

「守る側に先に渡す」戦略の前提が問われる

セキュリティ研究者のブルース・シュナイアーは、Project Glasswingの発表当初から「AnthropicのPR上の意図を批判的に検討せずに繰り返している報道が多い」と指摘していた。今回の件は、その懸念が具体的な形を取った出来事でもある。

Anthropicが掲げた「防衛側に先に渡す」というロジックは、前提として「渡した先で完全に管理される」ことに依存している。しかし現実の企業エコシステムは、委託先、委託先の委託先、そこで使われるオープンソースライブラリまで含む複雑な連鎖だ。Mercorを介したLiteLLM(AIサービスへの接続に広く使われるオープンソースライブラリ)へのサプライチェーン攻撃がその連鎖の弱さを露呈したように、ひとつの委託先の穴が全体に波及する。

攻撃者はAIを騙す必要がない。中間層が侵害されれば、APIキーや生データに直接たどり着ける。

英国AI安全機関(AI Security Institute)は、MythosがフルネットワークへのTakeover攻撃シミュレーションを完遂した最初のAIモデルだと評した。ただし「実際の防御が施されたシステムを攻撃できるかは確認できていない」との留保もつけた。能力の上限はまだ見えていない。

制限公開が「安全」であるという仮定そのものを疑う

今回の一件が問いかけているのは、「Mythosは危険か否か」ではなく、より根本的な構造の問いだ。企業規模の委託先ネットワークを前提とする限り、「信頼できる組織にのみ渡す」というアプローチは十分か。

危険すぎるモデルを完全な制御下に置いたまま運用するコストとリスクは、一般公開した場合のリスクとどう比較されるべきなのか。それぞれの答えはまだ、誰も持っていない。


参照元

関連記事

Read more

英GCHQが初の市販デバイスSilentGlass発表

英GCHQが初の市販デバイスSilentGlass発表

GCHQ傘下NCSCが、HDMIとDisplayPort経由の悪意ある信号を遮断するデバイスSilentGlassを公開した。政府施設で数年前から稼働中という触れ込みだが、何から守るのかをNCSCは答えない。 GCHQが売り始めた「モニター防御装置」 英国の信号諜報機関GCHQが、史上初めて自ブランドの市販ハードウェアを世に出す。国家サイバーセキュリティセンター(National Cyber Security Centre、以下NCSC)が22日、グラスゴーで開催中のCYBERUK 2026で発表したSilentGlassというプラグアンドプレイ型のデバイスだ。 HDMI用とDisplayPort用それぞれに専用機種があり、コンピュータとモニターの間に挟むだけで「予期しない、または悪意ある通信」を遮断するという。NCSCが知的財産を保有し、英国のサイバーセキュリティ企業Goldilock Labsが製造・販売の独占ライセンスを受けた。製造はラズベリーパイ(Raspberry Pi)も受託製造する南ウェールズのSony UK Technology Centreが担う。 NCSC