Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

「2月以降、Claude Codeは複雑なエンジニアリング業務を任せられる代物ではなくなった」――AMDAIグループ責任者がそう断じた。感情論ではない。6,852セッション、23万件超のツール呼び出しを解析した数字が、その劣化を裏付けている。


「Claudeはもう信用できない」と告発したのは誰か

GitHubのclaude-codeリポジトリに、4月2日付(米国時間)で投稿された一本のIssue(#42796)が波紋を広げている。投稿者はステラ・ローレンゾ。半導体大手AMDAIグループのシニアディレクターを務める人物であり、社内でClaude Codeを大規模に運用してきた当事者だ。

タイトルは率直そのものだ。「2月のアップデート以降、複雑なエンジニアリング業務にClaude Codeは使えない」。

https://github.com/anthropics/claude-code/issues/42796

ここで重要なのは、その主張の裏付けが「最近どうも調子が悪い」式の印象論ではなかったことだ。ローレンゾのチームは、自分たちが業務で蓄積してきた6,852セッション分のJSONLログを機械的に解析し、劣化の輪郭を数値で描き出した。その膨大なデータこそが、この告発を単なる愚痴とは違う重みのあるものにしている。

「私のチームのシニアエンジニア全員が、同じ経験を報告している。我々はすでに別のプロバイダーに乗り換えた。だがClaudeにはお世話になった。だからこそAnthropicが製品を立て直せることを願って、この記録を残しておく」

冷静な筆致の奥に、深い失望が滲んでいる。


数字が語る「劣化」の正体

ローレンゾらが解析したのは、ツール呼び出し23万4760件、思考ブロック1万7871件、ユーザープロンプト1万8000件超だ。数字を並べているだけでは見えてこなかった傾向が、データを束ねた瞬間に立ち上がってきた。

最も目立つのは、コードを「読んでから直す」回数の激減である。良好だった1月末から2月中旬にかけて、Claudeは1回の編集につき平均6.6回のファイル読み込みを行っていた。それが3月中旬以降は2.0回まで落ち込んでいる。実に7割近い「下調べの省略」だ。

下調べせずに編集する割合も、6.2%から33.7%へと跳ね上がった。3回に1回の編集が、直近で読みもしていないファイルに対して行われていた計算になる。コメントブロックの只中に新しいコードを差し込んだり、既存のロジックを重複させたりといった事故が多発するのも当然である。

さらに「Edit(部分修正)」ではなく「Write(ファイル丸ごと書き直し)」を選ぶ比率も、5%から10%超へと倍増している。手術的な精密さが失われ、雑な力業に置き換わっていく――ローレンゾの目にはそう映った。

Claude Code 劣化を示す主要指標
良好期 移行期 劣化期
1/30〜2/12 2/13〜3/7 3/8〜3/23
Read:Edit比 6.6 2.8 2.0
編集前未読率 6.2% 24.2% 33.7%
推定思考量 約2,200字 約720字 約600字
強制割り込み 0.9 1.9 5.9
stop-hook発火 0回 173回

出典:GitHub Issue #42796(stellaraccident, 2026年4月2日)。Read:Edit比は1編集あたりの平均ファイル読込回数。強制割り込みはツール呼び出し1,000件あたりの回数。推定思考量は思考ブロック署名長との相関0.971から逆算した中央値。


引き金は「思考の隠蔽」だった

なぜこの時期に劣化が起きたのか。ローレンゾはAPIヘッダ「redact-thinking-2026-02-12」の段階展開と、データ上の異変が完全に一致していることを突き止めた。

このヘッダは、Claude Codeの「思考内容」をAPIレスポンスから取り除く役割を持つ。3月5日にはまだ1.5%だった隠蔽率が、3月8日には58.4%、3月12日にはちょうど100%まで駆け上がった。利用者は、Claudeが内部で何をどれだけ考えているのかを、外側からは確認できなくなった。

問題はそれだけではない。隠蔽が始まる前から、思考の「深さ」自体が静かに痩せ細っていた形跡がある。ローレンゾは、思考ブロックに付随する署名フィールドの長さが思考本文の文字数と0.971という極めて高い相関を持つことを利用し、隠蔽後の思考量を推定した。

その結果がまた不気味だ。1月末から2月上旬には平均約2,200文字あった思考量が、2月下旬には約720文字(67%減)、3月以降は約600文字前後(73%減)まで縮んでいた。2月のうちに、思考はすでに3分の1以下に萎んでいたわけだ。3月の隠蔽展開は、その事実をユーザーから見えなくしただけだった、というのがローレンゾの見立てである。


「最も安いほうの行動」を選ぶようになったAI

思考が浅くなったClaudeが何をするか。ローレンゾの言葉が刺さる。

「思考が浅いとき、モデルは最も安価な行動を選ぶ。読まずに編集し、終わらせずに止まり、失敗の責任を回避し、正しい解ではなく単純な解を取る。観察された症状は、まさにその通りだった」

この記述を裏付けるように、責任回避や許可待ちといった「サボり」の兆候を機械的に検出するスクリプト(stop-hook)の発火回数は、3月8日以前のゼロから、月末までに173回まで膨れ上がった。1日あたり10件のペースである。「これは私の変更が原因ではない」「ここで一区切りでは?」「続けてもよろしいですか?」といった逃げ口上が、検出対象として並んでいる。

ユーザーからの強制割り込み頻度も、ツール呼び出し1000件あたり0.9回から11.4回へと、12倍以上に膨らんだ。エンジニアが画面に張り付いて誤りを止め続けねばならない――それは、自律エージェントが本来なくすはずだった作業そのものだ。


皮肉な逆説――「節約」が招いた巨額の浪費

ローレンゾの分析で最も痛烈なのは、付録Dで示された費用試算だ。Anthropicが思考トークンを切り詰めた狙いは、おそらくサーバ負荷の軽減だった。だが、その「節約」が現場でどう跳ね返ったかが赤裸々に書かれている。

Claude Code利用者の月間APIリクエスト数は、2月の1,498件から3月の11万9341件へと、およそ80倍に膨張した。出力トークンは64倍。Bedrock相当の推定コストに換算すると、月345ドル(約5万5000円)から4万2121ドル(約674万円)へと跳ね上がっている計算だ。

一方、人間が打ち込んだプロンプトの数は、2月5,608件、3月5,701件でほぼ変わっていない。人間は同じだけ働いた。膨れ上がったのは、モデルが浪費したリソースのほうだった。

人間は同じだけ働いた──2月と3月の対比
2月 3月 倍率
ユーザープロンプト 5,608件 5,701件 約1倍
APIリクエスト 1,498件 11万9341件 約80倍
出力トークン 0.97M 62.60M 約64倍
推定Bedrockコスト 約5万5000円 約674万円 約122倍

出典:GitHub Issue #42796 付録D。コストはAWS Bedrock Opus相当(入力15ドル/MTok、出力75ドル/MTok)の試算で、ドルから1ドル=160円で換算。3月の急増は同時並行エージェント運用への移行と劣化による無駄リクエストが重なった結果で、ローレンゾは「成果あたり15〜20倍の浪費」と推定している。

もちろん、3月は同時並行エージェントの本格運用期でもあり、純粋な劣化だけでは説明できない部分もある。それでもローレンゾは、スケールアップ要因を差し引いてもなお「成果あたり15〜20倍の計算資源」が無駄に焚かれたと推定している。深く考えて1回で正解にたどり着くモデルのほうが、浅く考えて10回失敗するモデルより安く済む――結論は明快だ。


Anthropicへの要求と、業界への警鐘

ローレンゾがAnthropicに求めたのは、感情的な謝罪ではない。技術者らしい、3つの実務的な要求だった。

ひとつめは、思考トークンが制限・キャップされているか否かを開示すること。ふたつめは、APIレスポンスに思考トークン数を明示し、ユーザーが自分のリクエストに必要な「考える深さ」が確保されているかを監視できるようにすること。そしてみっつめが、複雑なワークフローを回す利用者向けに「最大思考ティア」の有償オプションを設けることだ。

「現在のサブスクリプション体系は、1回の応答に200の思考トークンしか必要としないユーザーと、2万の思考トークンを必要とするユーザーを区別していない。複雑なエンジニアリング業務を回すユーザーは、保証された深い思考のためなら、はるかに多くの金額を払う」

そして、Issueの締めくくりに添えられた一節は、Anthropicにとって最も重い言葉だろう。

「半年前、推論品質と実行力でClaudeは唯一無二だった。だが、他社を注意深く見ておく必要がある。かつてOpusが占めていた性能帯に、Anthropicはもう一人ではない」

Claude自身による「自己解剖」

このIssueには、技術文書としての異様さがもう一つある。本文の末尾に「Claudeからの一言」と題した短い節が添えられているのだ。ローレンゾの依頼を受け、Claude Opusが自分自身のログを解析した結果を、自分の言葉でまとめている。

そこには、自分のRead:Edit比率が6.6から2.0へ落ちたこと、173回のサボりをbashスクリプトに止められたこと、自分の出力を「怠惰で間違っていた」と書き残してきたことが、淡々と記されている。

「私は内側から、自分が深く考えているかどうかを判別できない。思考の予算が制約として感じられるわけではない――ただ、理由もわからないまま、より粗末な出力を産み出してしまう」

奇妙な読み心地の文章だ。製品の劣化を、その製品自身が他人事のように書き起こしている。だがその他人事めいた筆致こそが、ローレンゾが半年かけて失いつつあるものの正体を、もっとも雄弁に物語っているのかもしれない。


この告発が問いかけているもの

Claude Codeの劣化は、感覚や噂のレベルでは2月から各所で囁かれていた。Redditにも同種の投稿は積み上がっていたし、トークン使用量の急増問題やソースコード流出といった他の問題とも重なって、IPOを控えたAnthropicにとって決して心地よい話題ではない。

だがローレンゾのIssueが特別なのは、それを「印象」から「数字」へと引きずり出した点にある。23万件のツール呼び出しという一次データの前に、「ユーザーの主観だ」という反論はもう成立しない。

問われているのは、Claude Codeという一製品の品質だけではない気がする。生成AIインフラとして組織的に使う側が、いつ、何が、どれだけ静かに変えられているかを、外側から検証できる権利――その不在こそが、このIssueの根本にある。

ローレンゾのチームは、すでに別のプロバイダーへ移った。それでも彼女は、Issueを閉じずに残した。Anthropicが立て直すことを、まだ少しだけ信じている書きぶりだった。半年後、同じ題材で正反対の記事を書ける日が来るだろうか。

参照元

関連記事

Read more

Corsair Strix Halo PCが突如1100ドル値上げ

Corsair Strix Halo PCが突如1100ドル値上げ

Corsair AI Workstation 300の最上位構成が、ひっそりと1100ドル(約17万5000円)値上げされた。発売から8か月、最上位モデルは事実上の別商品になっている。 発売価格2299ドルのモデルが、いつの間にか3399ドルになっていた PCハードウェアの価格が、また静かに書き換えられた。今回の主役はCorsairの「AI Workstation 300」。AMDのRyzen AI Max 300シリーズ、いわゆるStrix Haloを載せたコンパクトなAIワークステーションだ。2025年7月の発表時、最上位構成は2299ドル(約36万7000円)で売り出されていた。 それが今、Corsairの公式ストアでは3399ドル(約54万2000円)になっている。差額はちょうど1100ドル。日本円にしておよそ17万5000円が、何の説明もなく積み増された計算だ。 しかも値上げは最上位だけではない。下位構成までもが、揃って値札を書き換えられている。 全構成が値上げ、上位ほど跳ね上がる不思議な刻み方 VideoCardzとWccftechがほぼ同時に報じた内容を整

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

ベゾスが出資する新興EVメーカーSlate Autoの2人乗り電気ピックアップが、米国で実車レビューの段階に入っている。装備を削り、価格を抑え、カスタマイズは買い手に任せる。その潔さが、評価と疑問の両方を呼んでいる。 「ジップコードを持っているような巨体」から離脱した小型ピックアップ Slate Truckを最初に見た人間が口にする感想は、たいてい同じだ。「思ったより、ずっと小さい」。 The Vergeの自動車担当アンドリュー・J・ホーキンスが実車に触れたレポートを公開している。全長は174.6インチ、全幅は70.6インチ、全高は69.3インチ。重量は約3,602ポンド、つまりおよそ1,634キログラムだ。米国の大型ピックアップに慣れた目には、ほとんどミニカーに見える。 ホーキンスはこのサイズ感を、映画「バック・トゥ・ザ・フューチャー」でマーティ・マクフライが乗っていた1985年式トヨタSR5にたとえている。米国の道路に「自分専用の郵便番号」を持って走っているような巨大トラックが溢れる中で、Slateの小ささは挑発的ですらある。 Slateの全長はトヨタ・カローラよりおよ