Claude Opus 4.7公開、最難関タスクで主役交代か

Anthropicが4月16日にClaude Opus 4.7を一般公開した。最強モデルはMythos Previewのまま留め置かれている。その一つ下の「実用最強」が、ここで入れ替わった。

Claude Opus 4.7公開、最難関タスクで主役交代か

Anthropicが4月16日にClaude Opus 4.7を一般公開した。最強モデルはMythos Previewのまま留め置かれている。その一つ下の「実用最強」が、ここで入れ替わった。


最上位の座は空いたまま、実用最上位だけが動いた

Anthropicは4月7日にClaude Mythosの存在を公表し、サイバー能力を理由に一般公開を見送ると宣言した。その一週間後に登場したOpus 4.7は、Mythosの代わりに手渡される実戦機という位置付けになる。

自社比較グラフでMythos Previewの列が常に一段上にそびえ、その下でOpus 4.7がOpus 4.6を上書きしていく。この絵柄自体が、今回のリリースの性格を端的に物語っている。

Anthropic

価格はOpus 4.6と据え置きで、入力100万トークンあたり5ドル(約790円)、出力100万トークンあたり25ドル(約3970円)。モデル識別子は claude-opus-4-7 だ。

Opus 4.7は、以前は細かい監督が必要だったコーディング作業を、安心して任せられるレベルに達した——Anthropicはそう説明している。

価格を上げずに「預けられる仕事の範囲」を広げたという主張である。検証はこれからだが、料金表を動かさなかった点は、少なくとも商業的には強気の姿勢に見える。


ベンチマークが示す「Mythosの影」

公開された比較表を素直に読むと、Opus 4.7は多くの項目でOpus 4.6を上回り、GPT-5.4やGemini 3.1 Proと肩を並べるか追い抜いている。ただし、Mythos Previewの列はほぼ全域で一段高い

具体的には、SWE-bench ProでOpus 4.7は64.3%、Opus 4.6の53.4%から約11ポイントの上積み。対するMythos Previewは77.8%で、さらに13ポイント以上離している。SWE-bench VerifiedでもOpus 4.7の87.6%に対しMythosは93.9%だ。

サイバー能力だけは「意図的に抑えた」

興味深いのはCyberGymの数値だ。

Opus 4.7は73.1%で、Opus 4.6の73.8%からわずかに下がっている。コーディングや推論で明確に伸びた中、サイバーだけが横ばいから微減というのは偶然ではない。

Anthropicは、トレーニング中にサイバー能力を選択的に抑える実験を行ったと明記している。

つまりOpus 4.7は、能力を伸ばす技術と抑える技術を同じモデルで試した実験台でもある。Mythosクラスを将来的に広く展開するための、安全装置の試運転という側面がここにある。

合法的なサイバー用途(脆弱性調査、ペネトレーションテスト等)で使いたい研究者向けには、新設されたCyber Verification Programへの参加ルートが用意された。裏を返せば、一般ユーザーがサイバー方向の出力を引き出そうとすると、自動ブロックに阻まれる場面が増えるということでもある。


「指示に厳密」の副作用

公式の注意書きで目を引いたのは、プロンプト互換性についての記述だ。

Opus 4.7は指示に対して大幅に忠実になった。そのため、旧モデル向けに書かれたプロンプトが予期しない挙動を生むことがあるため、プロンプトとハーネスの再調整を推奨する。

従来のClaudeがプロンプトを「緩く」解釈し、一部をスキップしていた部分まで、Opus 4.7は字義通りに実行しようとする。これは性能向上の結果でもあり、既存ワークフローにとっては小さな破壊でもある。

claude-opus-4-6 をアプリに組み込んで運用しているユーザーは、いきなりモデル名だけ差し替えると挙動が変わる可能性がある。Anthropicが珍しく再調整を明言しているのは、それだけ差分が無視できないということだろう。


画像解像度3倍、メモリも改善

もう一つのアップデートは視覚周りだ。

Opus 4.7は長辺2576ピクセル(約375万画素)まで画像を処理できるようになった。従来Claudeの3倍以上の情報量だ。

これが効いてくるのは、コンピュータ操作エージェントが密度の高いスクリーンショットを読む場面、複雑な図表からのデータ抽出、ピクセル単位の参照が必要な業務である。XBOWはペネトレーションテスト向けの視覚ベンチマークで、Opus 4.6の54.5%に対しOpus 4.7が98.5%を記録したと証言している。倍近い差で、特定用途では世代交代と言っていい飛躍だ。

ファイルシステムベースのメモリ機能も改善された。長期プロジェクトで前回までのメモを読み返し、文脈を使い回す精度が上がったという。エージェント的なユースケースで、同じことを何度も説明し直さずに済む方向への寄与だ。


トークン消費は増える方向、ただし効率は改善

移行ガイドには、現場に直接効く注意が書かれている。

Opus 4.7はトークナイザーを更新しており、同じ入力が 1.0〜1.35倍 のトークン数にマッピングされる可能性がある。加えて、高effort設定では思考量そのものが増え、特にエージェント的な後半ターンで出力トークンが伸びる。

一方でAnthropicの内部評価では、トークンあたりの性能は改善しているとされる。つまり「トークンは余計に使うが、同じトークンあたりで以前より多くの仕事をする」という主張だ。

実トラフィックで差分を計測してから判断することを推奨する——Anthropic自身がそう呼びかけている。

自信があるなら計測を促す必要はない。この但し書きからは、ユースケース次第で月額請求が素直に上がるケースもあり得る、という含みを読み取ってよい。effortパラメータやタスクバジェット、簡潔化プロンプトで制御する余地は残されている。


同時リリース:xhighとultrareview

Opus 4.7と一緒に、周辺機能も更新された。

新しいeffortレベル xhigh(extra high)がhighとmaxの間に追加された。Claude Codeではデフォルトeffortを全プランでxhighに引き上げている。Anthropic自身が「コーディングやエージェント用途ではhighかxhighから始めてほしい」と書いているあたり、medium以下では不足というメッセージとして受け取れる。

Claude Codeには /ultrareview スラッシュコマンドが入った。変更内容を読み込み、注意深いレビュアーが拾うようなバグや設計上の問題をフラグ立てする専用セッションだ。ProとMaxユーザーには3回分の無料枠が付く。

Maxユーザー向けには、Claudeが権限判断を肩代わりするauto modeも開放された。長時間タスクを中断少なく走らせるための仕組みだが、「skip all permissions」と比べればリスクを抑えた中間路線という位置付けになる。


アライメントは「おおむね良好、完全ではない」

安全性評価では、欺瞞・追従・悪用協力といった項目でOpus 4.6と同水準の低い発生率を維持している。正直さやプロンプトインジェクション耐性は改善した一方、規制物質関連のハームリダクション助言が過剰に詳細になる傾向がやや悪化したと報告されている。

Anthropicのアライメント評価は、Opus 4.7を「おおむね良好でアライメントされ信頼できるが、挙動は完全に理想的ではない」と結論付けた。最もアライメントされたモデルは依然としてMythos Previewだという。

Mythosが一番安全なのに一般公開できない。Opus 4.7は公開できるが、完璧ではない。この捻れた構造が、現在のフロンティアモデルを巡る緊張を象徴している。


誰にとっての「4.7」か

ここまで見てきたOpus 4.7は、誰向けのアップデートなのか。

最もはっきり恩恵を受けるのは、長時間のエージェント的コーディングを本業にしている層だろう。ReplitCursor、Vercel、Factory、Warp、Boltといった顧客のコメントは、いずれも「Opus 4.6では手が届かなかった一段階」が具体的に動いたことを示している。Cursorは自社ベンチでOpus 4.6の58%がOpus 4.7で70%超に達したと述べ、Rakutenは自社のSWE-Benchで本番タスクの解決率が3倍になったと報告している。

一方で、単発の短いチャット用途やコスト最優先のワークロードでは、トークン消費増が素直に効いてしまう可能性がある。xhighを推奨されるということは、mediumで使っている限り差を感じにくい可能性もあるということだ。

Mythosクラスが広く降りてくる日まで、実用上のフロンティアを担うのはOpus 4.7だ。価格を動かさずに出てきたという事実が、その役回りの重さを静かに裏付けている。


参照元

他参照

関連記事

Read more

1メガビットDRAM商用化から40年、主役は三度入れ替わった

1メガビットDRAM商用化から40年、主役は三度入れ替わった

40年前の今日、IBMが世界で初めて1メガビットDRAMを商用機に載せた。日本勢が世界シェアの75%を押さえつつあった時代、米国が「まだ先頭にいる」と示したかった一枚のチップだった。 40年前の今日、メガビット時代が開いた 1986年4月18日、IBMが世界で初めて1メガビットのDRAMチップを商用コンピューターに搭載したと報じられた。搭載先は同社のメインフレーム IBM 3090(Sierraシリーズ)。前年に発表されたばかりのフラグシップ機だ。 当時の個人向けPCに積まれていたのは 64キロビット のメモリチップが主流で、日本勢が量産していた最先端も256キロビットにすぎなかった。一気にその4倍の容量を、1.2ミクロンプロセスで実現したのがIBMの新チップだった。 チップは米バーモント州エセックス・ジャンクションの半導体工場で作られた。IBMはそこを強調した。上級副社長のジャック・D・キューラー(Jack D. Kuehler)は、これを「我々の半導体技術における先進性の証」と位置づけた。 東京の工場ではなく、我が社のバーモント工場で作られたチップ。キューラーはその一点

Microsoft Fairwater、前倒し稼働の裏で「Microslop」と呼ばれる現実

Microsoft Fairwater、前倒し稼働の裏で「Microslop」と呼ばれる現実

Microsoft(マイクロソフト)がウィスコンシン州のAIデータセンター「Fairwater」を予定前倒しで稼働させた。しかしナデラCEOのX発表は「Microslop」と揶揄する反応に埋もれ、想定外の温度の批判にさらされている。 単一クラスタに数十万基のBlackwell、前倒し稼働の中身 Fairwaterは315エーカーの敷地に3棟を構えるAI専用施設で、2024年5月に33億ドル(約5,200億円)規模の投資として発表されたプロジェクトだ。2025年9月にはMicrosoftがさらに40億ドルの追加投資を発表し、第2棟の建設計画も走っている。サティア・ナデラ(Satya Nadella)は4月16日のX投稿で「ウィスコンシンのFairwaterが予定より早く稼働する。世界で最も強力なAIデータセンターとして、数十万基のGB200を単一シームレスクラスタに統合する」と明かした。 Our Fairwater datacenter in Wisconsin is going live, ahead of schedule. As the world’s most powe