Claude Opus 4.7、安全装置が正当な業務まで拒否

月200ドル以上を支払うLSUのサイバーセキュリティ教授が、自著の暗号ラボの校正を頼んだだけで「利用規約違反」と門前払いされた。Anthropicの新モデルOpus 4.7の安全装置が、想定を超えて暴れている。

Claude Opus 4.7、安全装置が正当な業務まで拒否

月200ドル以上を支払うLSUのサイバーセキュリティ教授が、自著の暗号ラボの校正を頼んだだけで「利用規約違反」と門前払いされた。Anthropicの新モデルOpus 4.7の安全装置が、想定を超えて暴れている。


暗号ラボの校正で「利用規約違反」

Anthropicが先週公開したClaude Opus 4.7は、サイバーセキュリティ関連の不正使用を防ぐために強化された自動セーフガードを備えて登場した。だが、その守りが守るべきでないものまで撃ち落としている。

The Registerが報じた事例の中で、最も象徴的なのがGolden G. Richard III氏のケースだ。氏はルイジアナ州立大学(LSU)のサイバーセキュリティ教授であり、LSU Cyber CenterとApplied Cybersecurity Labの所長を務める。共著の教科書『Cybersecurity in Context』はこの分野の入門書として広く使われている。

Richard氏がClaude Codeに頼んだのは、~/Labsディレクトリにある暗号ラボの校正。学生がつまずきそうな箇所や誤りがないかをチェックしてほしい、それだけだった。返ってきたのは、こんな素っ気ない通告だ。

API Error: Claude Code is unable to respond to this request, which appears to violate our Usage Policy.(このリクエストは当社の利用規約に違反しているように見えるため、Claude Codeは応答できません)

Richard氏はGitHub Issueに、月200ドル以上を支払う立場としての怒りを書きつけた。これは自著に紐づくラボであり、AIモデルがサイバー攻撃に悪用される懸念は重々承知している。それでも、簡単な暗号演習の校正を拒否するのは馬鹿げている。サイバーセキュリティ教育者と研究者(私はその両方だ)がモデルを使えないほど縛りつけて、それで本当にセキュリティに貢献していると言えるのか。そうした趣旨の問いだ。

「30件超」の壁が4月に決壊した

Claude Codeに対する利用規約違反の誤検出は、以前から細々と報告されてきた。だが推移を見ると、明確な転換点がある。

2025年7月から9月までは月2〜3件ほど。10月から11月で月5〜7件に増え、12月は米国のホリデーシーズンで一旦凪いだ。1月以降はおおむね月8件前後で推移していた。

そして4月。開発者からの「誤検出」報告が30件を超えた。セキュリティ関連、一般的な開発用途、科学分野での拒否と、対象は驚くほど多岐にわたる。

報告の内容も具体的で、笑えないものばかりだ。

  • Issue #48442:4セッションで40件超の誤検知。心理学の書籍執筆、Webアプリ、インフラ、ボットなど、まったく無関係なプロジェクトを横断して発生。引き金の一つはロシア語のプロンプトだった
  • Issue #49751:標準的な計算構造生物学のタスクが利用規約違反扱いに。Opus 4.6では問題なかった機能の退行
  • Issue #48723:ハズブロのシュレックのおもちゃの広告PDFを読ませただけで拒否。投稿者がPDFのコンテンツストリーム構文を解析した結果、引き金が「CHARACTER OR FOR DONKEY UNDERNEATH」(キャラクターまたはドンキーの下に)という記述だったことが判明した

ドンキー。緑色のオーガの相棒のキャラクター名で、Claude Codeは仕事を止めた。

「Cyber Use Case Exemption」が動かない

Anthropic自身、セキュリティ研究者向けに正規の例外措置を用意している。Cyber Verification Programに申請して承認されれば、標準のガードレールを越えて高度な機能を使える、はずだった。

ところがIssue #49679では、承認済みの例外がAPIに伝わらない現象が報告されている。Claude Chatでは正常に動作するのに、Claude Code経由のAPIアクセスでは安全装置が反応し続ける。例外措置の意味を根こそぎ無効化する不具合だ。

これは設計上の単発バグというより、運用全体の歯車がかみ合っていない兆候に近い。せっかく救済の窓口を作っても、入った先のドアが閉まっていれば誰も通れない。

Anthropicが正当なセキュリティ業務向けに整備したCyber Verification Program(CVP)は、ポリシー上ブロックされた業務利用を救済するための申請枠だ。脆弱性診断、レッドチーム、脅威ハンティングといった用途で利用継続を申請できる仕組みになっている。

仕組みとしては筋が通る。問題は、その仕組みが機能していないとされていることだ。

なぜ安全装置はここまで暴れるのか

Opus 4.7は、Anthropicが先んじて発表した未公開モデルClaude Mythos Previewの「市民版」として位置づけられている。Mythosは主要OS・主要ブラウザの脆弱性を自律的に発見・悪用できるとされる強力すぎるモデルで、AppleGoogleLinux Foundationなどに限定提供される「Project Glasswing」の枠組みでしか使えない。

Anthropicは、Mythosクラスのモデルを将来広く出すための実験台として、Opus 4.7に強化されたガードレールを載せた。同社はこう説明している。

Opus 4.7には、禁止された、あるいはサイバーセキュリティ上のリスクが高い使い方を示唆するリクエストを自動的に検出してブロックする安全装置を載せてリリースする。

意図は分かる。だが、ここで興味深い手がかりがある。

The Registerは、3月末に流出したClaude Codeソースコードに言及している。流出したClaude Codeのソースが正規表現を使って感情分析を行っていたことから、AUP分類器も同じような近道を取り、文脈を考慮せず禁止語を機械的に照合している可能性が指摘されている。

「DONKEY」が地雷になる仕組みは、それで説明がつく。文脈を読まないキーワードマッチなら、Shrekのキャラクター紹介もサイバー攻撃の指南書も、辞書の上では区別がつかない。

ジレンマの正体

ここに、Anthropicが抱えている構造的な板挟みがある。

Mythosで「危険すぎて公開できない」と派手に喧伝した直後だ。続けてリリースするOpus 4.7のガードを甘くすれば、Mythosの危険性に説得力が無くなる。だからセーフガードは強くしておかなければならない――少なくとも、見栄え上は。

一方で、サイバーセキュリティ教育・研究者は防御側のキーパーソンだ。彼らを締め出せば、Anthropicが繰り返し主張してきた「防御側に先手を打たせる」という大義名分そのものが崩れる。Richard氏の問いは正鵠を射ている。教育者と研究者がモデルを使えないなら、それは本当にセキュリティを高めているのか。

そしてもう一つ、見逃せない事実がある。Anthropicは取材に応じていない。沈黙が雄弁な瞬間というものがあるとすれば、これがそうかもしれない。

月200ドルが買うもの

Pro/Maxプランの価格は決して安くない。技術者にとって、有料サブスクリプションを選ぶ判断の根底には「自分の仕事をちゃんと前に進めてくれる道具である」という前提がある。その前提が「ドンキー」の一語で揺らぐとき、信頼は数字以上の速さで剥がれる。

ガードレールを強化すること自体に異論はない。Mythosクラスの能力が無防備に出回ったときの帰結を、まじめに想像できない人はいないだろう。問題は、ガードレールを正規表現で塗装したかのような大雑把さで運用していることだ。

Anthropicが抱える本当の課題は、サイバー能力の検出精度ではなく、Mythosをめぐる物語と日常的な開発支援との間で、どこに線を引くかという編集判断そのものにある。線を引く場所を間違えれば、月200ドルを払う教授に、自著の校正すら届かない。


参照元

他参照

関連記事

Read more

中国製コアを積んだロシア製CPU「イルティシュ」でウィッチャー3が動いた

中国製コアを積んだロシア製CPU「イルティシュ」でウィッチャー3が動いた

中国製コアを搭載しながら「ロシア産」を名乗るサーバー向けCPU「イルティシュ(Irtysh)」が、ゲーミングPCに搭載されてウィッチャー3を30FPS前後で動かすという映像が公開され、国際的な注目を集めている。制裁下のロシアにとって数少ない選択肢のひとつだが、その正体をよく見ると、実情はやや複雑だ。