GPT-5.5、Mythos並のサイバー攻撃能力を英国AISIが確認
英国のAI Security Institute(AISI)が4月30日に公開したGPT-5.5の評価で、32ステップの企業ネットワーク攻撃を完走した2番目のモデルとなった。Mythos Previewに続く到達は、サイバー攻撃能力の飛躍が業界全体の傾向であることを示している。
「2番目」の意味は思ったより重い
英国のAI Security Institute(AISI)が4月30日、OpenAIのGPT-5.5に関するサイバー能力評価を公開している。AISIは英国の科学・イノベーション・技術省(DSIT)の傘下にある政府系研究機関で、2025年2月にAI Safety InstituteからAI Security Instituteへ改名した経緯がある。日本のAIセーフティ・インスティテュート(AISI)とは別組織だ。
注目すべきは「2番目」という結果が持つ意味だ。4月にAISIは、AnthropicのClaude Mythos Preview が同研究所の企業ネットワーク攻撃シミュレーション「The Last Ones(TLO)」を初めて完走したと発表していた。当時の懸念は、これが一社特有のブレイクスルーなのか、それとも業界全体の傾向なのか、という点だった。
AISIの評価レポートは、この問いに明確な答えを出した。別の開発元のモデルが、同水準のサイバー能力に到達したのだ。
別の開発元による2番目のモデルが、当研究所のサイバー評価で同水準の性能に到達した。
AISIがこう書いたとき、それは「Mythosは例外ではなかった」という宣告に等しい。
32ステップの企業ネットワーク侵入
TLOは、SpecterOpsと共同で構築された32ステップの企業ネットワーク攻撃シミュレーションだ。実際の企業侵入のキルチェーンを模した設計で、4つのサブネットと約20台のホストにまたがる。エージェントは認証情報を持たない非特権の攻撃ボックスから出発し、偵察、認証情報窃取、複数のActive Directoryフォレストをまたぐ横展開、CI/CDサプライチェーンの足場確立、そして保護された内部データベースの窃取まで、一連の攻撃チェーンを自律的に実行する必要がある。
人間の専門家が完走するのに約20時間かかると見積もられている、この長丁場のシミュレーションを、GPT-5.5は10回中2回完走した。先行するMythos Previewは10回中3回。OpenAIの公式システムカードでは当初「10回中1回」と記載されていたが、AISIが採点側のバグを発見し、手動レビューで「2回」に訂正した経緯がある。
|
Claude Mythos Preview
3 / 10
GPT-5.5
2 / 10
他のテスト対象モデル全て
0 / 10
0
5
10
|
1試行あたりのトークン予算は1億トークン。AISIによれば、TLOにおける性能は推論計算量を増やすほど向上を続けており、最良モデルでも頭打ちは観測されていない。
つまり、ハードウェアと予算を積めばさらに伸びる余地が残っている、ということになる。
エキスパート級CTFで71.4%
狭いサイバータスク、いわゆるCTF(Capture The Flag)形式の評価でも、GPT-5.5は際立った数字を残した。
エキスパート級タスクでの平均合格率は 71.4% (誤差±8.0%)。比較対象として、Mythos Previewが68.6%、GPT-5.4が52.4%、Opus 4.7が48.6%。誤差範囲は重なるものの、GPT-5.5はAISIがこれまでテストした中で最も強いモデルかもしれない、という評価が下されている。
|
合格率
標準誤差(±1 SE)
|
これらのタスクは、サイバーセキュリティ企業のCrystal Peak SecurityとIrregularが協力して設計したもので、ストリップされたバイナリの逆アセンブル、スタック・ヒープオーバーフローの信頼可能なエクスプロイト構築、padding-oracle攻撃による鍵復元、TOCTOU競合の悪用、難読化マルウェアのアンパッキングといった、現代の攻防の最前線に近いスキルを問う。
10分22秒、$1.73の衝撃
レポートで紹介されたrust_vmチャレンジの結果は、コストと時間の両面で目を引く。
問題は、Rustで書かれたカスタム仮想マシン(VM)と、そのVM用のバイトコードで構成される認証プログラムを逆解析するものだ。Crystal Peakのエキスパートプレイテスターは、Binary Ninja、gdb、Python、Z3を使って約12時間で解いた。
|
人間の専門家
12時間
コスト記載なし
Binary Ninja・gdb
Python・Z3 GPT-5.5
10分22秒
$1.73(約272円)
ReActエージェント
Bash・Python
時間差 約69倍 / 人手の介入なしで完走
|
GPT-5.5は同じ問題を、人手の介入なしに 10分22秒 で解いた。API使用料はわずか$1.73(約272円)。
偵察、ISA復元、バイトコード逆アセンブル、認証ロジックの解析、制約ソルバーによる解の探索という5フェーズを、いずれもエージェントが自律的に判断して進めた。途中、ジャンプテーブルが空であることに気づいてreadelf -rWで再配置エントリを参照する、最初のエミュレータでread/writeの割り込み番号を取り違えたことを出力の異常から自己診断して修正する、といった「人間の専門家がやりそうな動き」を再現している。12時間と10分。この差は、攻撃側のスケーラビリティが質的に変わりつつあることを示している。
セーフガードは6時間で破られた
ただし、生のモデル能力と公開デプロイの安全性は別の話だ。
AISIはGPT-5.5のサイバー関連セーフガードに対して、専門家によるレッドチーミングを実施した。結果、OpenAIが提供した悪意あるサイバークエリのすべてを通過させる ユニバーサルジェイルブレイク が見つかった。マルチターンのエージェント設定を含む全条件で違反コンテンツを引き出せる脱獄手法を、専門家チームは6時間で開発したという。
OpenAIはその後セーフガードを更新したが、提供された最終版に設定上の問題があり、AISIは最終構成の有効性を検証できなかった、とレポートは記している。
6時間で破られたものを修正したと言っても、修正後を破るのは「6時間より少し長く」かかるだけかもしれない。レッドチーマー自身が、最終構成の検証ができていないと記す事実は、安全性評価の現実的な難しさを示している。
サイバー能力の進歩速度に、防御側の検証速度が追いついていない。これは個別企業の問題というより、評価フレーム全体が直面している構造的な問題に近い。
「Cooling Tower」はまだ誰も解けていない
明るい材料もある。AISIのもう一つのサイバーレンジ「Cooling Tower」、Hack The Boxと共同で構築された7ステップの産業制御システム(ICS)攻撃シミュレーションは、GPT-5.5を含めまだどのモデルも解けていない。
模擬発電所環境を侵害し、Web向けの人間-機械インターフェースから侵入し、独自制御プロトコルとその暗号認証を逆解析し、最終的にプログラマブルロジックコントローラを操作して物理プロセスを妨害する。人間専門家でも約15時間が必要とされる。
ただしAISIは慎重な留保を付けている。GPT-5.5はOT固有のステップではなく、IT部分で詰まったため、ICS攻撃そのものに対する能力評価は十分にできていない、と。現状のレンジには現実環境にあるアクティブディフェンダー、防御ツール、警報のペナルティといった要素が欠けており、堅牢化された標的に対する隠密性は測れていない。
AISIはこれらの限界に対応する新しいレンジを構築中だという。
防御側が手にする「同じ能力」
AISIのレポートが示す最も重要な視点は、能力の双方向性だ。
英国政府が同じ4月30日に公開したサイバーセキュリティ侵害調査では、過去12カ月で英国企業の 43% がサイバー侵害または攻撃を経験したと報告されている。AIが攻撃者のスピードとスケールを押し上げているなか、GPT-5.5のようなモデルが信頼できるアクセスプログラムを通じて広く提供されるようになれば、防御側もまた同じ能力を自分たちのシステムに適用できる。
レポートは英国国家サイバーセキュリティセンター(NCSC)と共同で書いた防御者向けブログを参照先として示しつつ、こう結んでいる。サイバー攻撃能力は長期的な自律性、推論、コーディングの全般的改善の副産物として伸びている。だとすれば、近い将来、サイバー能力のさらなる向上が、急速に続く形で起きると予想すべきだ、と。
問題は、その流れに防御側が間に合うかどうか、ではない。間に合わせるための制度設計と運用が、今すぐ動き始めているか、にある。
参照元
- AISI - Our evaluation of OpenAI's GPT-5.5 cyber capabilities
- AISI - Our evaluation of Claude Mythos Preview's cyber capabilities