Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

情報の灯台

2026年4月7日

「2月以降、Claude Codeは複雑なエンジニアリング業務を任せられる代物ではなくなった」――AMDのAIグループ責任者がそう断じた。感情論ではない。6,852セッション、23万件超のツール呼び出しを解析した数字が、その劣化を裏付けている。

「Claudeはもう信用できない」と告発したのは誰か

GitHubのclaude-codeリポジトリに、4月2日付（米国時間）で投稿された一本のIssue（#42796）が波紋を広げている。投稿者はステラ・ローレンゾ。半導体大手AMDでAIグループのシニアディレクターを務める人物であり、社内でClaude Codeを大規模に運用してきた当事者だ。

タイトルは率直そのものだ。「2月のアップデート以降、複雑なエンジニアリング業務にClaude Codeは使えない」。

https://github.com/anthropics/claude-code/issues/42796

ここで重要なのは、その主張の裏付けが「最近どうも調子が悪い」式の印象論ではなかったことだ。ローレンゾのチームは、自分たちが業務で蓄積してきた6,852セッション分のJSONLログを機械的に解析し、劣化の輪郭を数値で描き出した。その膨大なデータこそが、この告発を単なる愚痴とは違う重みのあるものにしている。

「私のチームのシニアエンジニア全員が、同じ経験を報告している。我々はすでに別のプロバイダーに乗り換えた。だがClaudeにはお世話になった。だからこそAnthropicが製品を立て直せることを願って、この記録を残しておく」

冷静な筆致の奥に、深い失望が滲んでいる。

数字が語る「劣化」の正体

ローレンゾらが解析したのは、ツール呼び出し23万4760件、思考ブロック1万7871件、ユーザープロンプト1万8000件超だ。数字を並べているだけでは見えてこなかった傾向が、データを束ねた瞬間に立ち上がってきた。

最も目立つのは、コードを「読んでから直す」回数の激減である。良好だった1月末から2月中旬にかけて、Claudeは1回の編集につき平均6.6回のファイル読み込みを行っていた。それが3月中旬以降は2.0回まで落ち込んでいる。実に7割近い「下調べの省略」だ。

下調べせずに編集する割合も、6.2%から33.7%へと跳ね上がった。3回に1回の編集が、直近で読みもしていないファイルに対して行われていた計算になる。コメントブロックの只中に新しいコードを差し込んだり、既存のロジックを重複させたりといった事故が多発するのも当然である。

さらに「Edit（部分修正）」ではなく「Write（ファイル丸ごと書き直し）」を選ぶ比率も、5%から10%超へと倍増している。手術的な精密さが失われ、雑な力業に置き換わっていく――ローレンゾの目にはそう映った。

Claude Code 劣化を示す主要指標

	良好期	移行期	劣化期
	1/30〜2/12	2/13〜3/7	3/8〜3/23
Read:Edit比	6.6	2.8	2.0
編集前未読率	6.2%	24.2%	33.7%
推定思考量	約2,200字	約720字	約600字
強制割り込み	0.9	1.9	5.9
stop-hook発火	0回	—	173回

出典：GitHub Issue #42796（stellaraccident, 2026年4月2日）。Read:Edit比は1編集あたりの平均ファイル読込回数。強制割り込みはツール呼び出し1,000件あたりの回数。推定思考量は思考ブロック署名長との相関0.971から逆算した中央値。

引き金は「思考の隠蔽」だった

なぜこの時期に劣化が起きたのか。ローレンゾはAPIヘッダ「redact-thinking-2026-02-12」の段階展開と、データ上の異変が完全に一致していることを突き止めた。

このヘッダは、Claude Codeの「思考内容」をAPIレスポンスから取り除く役割を持つ。3月5日にはまだ1.5%だった隠蔽率が、3月8日には58.4%、3月12日にはちょうど100%まで駆け上がった。利用者は、Claudeが内部で何をどれだけ考えているのかを、外側からは確認できなくなった。

問題はそれだけではない。隠蔽が始まる前から、思考の「深さ」自体が静かに痩せ細っていた形跡がある。ローレンゾは、思考ブロックに付随する署名フィールドの長さが思考本文の文字数と0.971という極めて高い相関を持つことを利用し、隠蔽後の思考量を推定した。

その結果がまた不気味だ。1月末から2月上旬には平均約2,200文字あった思考量が、2月下旬には約720文字（67%減）、3月以降は約600文字前後（73%減）まで縮んでいた。2月のうちに、思考はすでに3分の1以下に萎んでいたわけだ。3月の隠蔽展開は、その事実をユーザーから見えなくしただけだった、というのがローレンゾの見立てである。

「最も安いほうの行動」を選ぶようになったAI

思考が浅くなったClaudeが何をするか。ローレンゾの言葉が刺さる。

「思考が浅いとき、モデルは最も安価な行動を選ぶ。読まずに編集し、終わらせずに止まり、失敗の責任を回避し、正しい解ではなく単純な解を取る。観察された症状は、まさにその通りだった」

この記述を裏付けるように、責任回避や許可待ちといった「サボり」の兆候を機械的に検出するスクリプト（stop-hook）の発火回数は、3月8日以前のゼロから、月末までに173回まで膨れ上がった。1日あたり10件のペースである。「これは私の変更が原因ではない」「ここで一区切りでは？」「続けてもよろしいですか？」といった逃げ口上が、検出対象として並んでいる。

ユーザーからの強制割り込み頻度も、ツール呼び出し1000件あたり0.9回から11.4回へと、12倍以上に膨らんだ。エンジニアが画面に張り付いて誤りを止め続けねばならない――それは、自律エージェントが本来なくすはずだった作業そのものだ。

皮肉な逆説――「節約」が招いた巨額の浪費

ローレンゾの分析で最も痛烈なのは、付録Dで示された費用試算だ。Anthropicが思考トークンを切り詰めた狙いは、おそらくサーバ負荷の軽減だった。だが、その「節約」が現場でどう跳ね返ったかが赤裸々に書かれている。

Claude Code利用者の月間APIリクエスト数は、2月の1,498件から3月の11万9341件へと、およそ80倍に膨張した。出力トークンは64倍。Bedrock相当の推定コストに換算すると、月345ドル（約5万5000円）から4万2121ドル（約674万円）へと跳ね上がっている計算だ。

一方、人間が打ち込んだプロンプトの数は、2月5,608件、3月5,701件でほぼ変わっていない。人間は同じだけ働いた。膨れ上がったのは、モデルが浪費したリソースのほうだった。

人間は同じだけ働いた──2月と3月の対比

	2月	3月	倍率
ユーザープロンプト	5,608件	5,701件	約1倍
APIリクエスト	1,498件	11万9341件	約80倍
出力トークン	0.97M	62.60M	約64倍
推定Bedrockコスト	約5万5000円	約674万円	約122倍

出典：GitHub Issue #42796 付録D。コストはAWS Bedrock Opus相当（入力15ドル/MTok、出力75ドル/MTok）の試算で、ドルから1ドル=160円で換算。3月の急増は同時並行エージェント運用への移行と劣化による無駄リクエストが重なった結果で、ローレンゾは「成果あたり15〜20倍の浪費」と推定している。

もちろん、3月は同時並行エージェントの本格運用期でもあり、純粋な劣化だけでは説明できない部分もある。それでもローレンゾは、スケールアップ要因を差し引いてもなお「成果あたり15〜20倍の計算資源」が無駄に焚かれたと推定している。深く考えて1回で正解にたどり着くモデルのほうが、浅く考えて10回失敗するモデルより安く済む――結論は明快だ。

Anthropicへの要求と、業界への警鐘

ローレンゾがAnthropicに求めたのは、感情的な謝罪ではない。技術者らしい、3つの実務的な要求だった。

ひとつめは、思考トークンが制限・キャップされているか否かを開示すること。ふたつめは、APIレスポンスに思考トークン数を明示し、ユーザーが自分のリクエストに必要な「考える深さ」が確保されているかを監視できるようにすること。そしてみっつめが、複雑なワークフローを回す利用者向けに「最大思考ティア」の有償オプションを設けることだ。

「現在のサブスクリプション体系は、1回の応答に200の思考トークンしか必要としないユーザーと、2万の思考トークンを必要とするユーザーを区別していない。複雑なエンジニアリング業務を回すユーザーは、保証された深い思考のためなら、はるかに多くの金額を払う」

そして、Issueの締めくくりに添えられた一節は、Anthropicにとって最も重い言葉だろう。

「半年前、推論品質と実行力でClaudeは唯一無二だった。だが、他社を注意深く見ておく必要がある。かつてOpusが占めていた性能帯に、Anthropicはもう一人ではない」

Claude自身による「自己解剖」

このIssueには、技術文書としての異様さがもう一つある。本文の末尾に「Claudeからの一言」と題した短い節が添えられているのだ。ローレンゾの依頼を受け、Claude Opusが自分自身のログを解析した結果を、自分の言葉でまとめている。

そこには、自分のRead:Edit比率が6.6から2.0へ落ちたこと、173回のサボりをbashスクリプトに止められたこと、自分の出力を「怠惰で間違っていた」と書き残してきたことが、淡々と記されている。

「私は内側から、自分が深く考えているかどうかを判別できない。思考の予算が制約として感じられるわけではない――ただ、理由もわからないまま、より粗末な出力を産み出してしまう」

奇妙な読み心地の文章だ。製品の劣化を、その製品自身が他人事のように書き起こしている。だがその他人事めいた筆致こそが、ローレンゾが半年かけて失いつつあるものの正体を、もっとも雄弁に物語っているのかもしれない。

この告発が問いかけているもの

Claude Codeの劣化は、感覚や噂のレベルでは2月から各所で囁かれていた。Redditにも同種の投稿は積み上がっていたし、トークン使用量の急増問題やソースコード流出といった他の問題とも重なって、IPOを控えたAnthropicにとって決して心地よい話題ではない。

だがローレンゾのIssueが特別なのは、それを「印象」から「数字」へと引きずり出した点にある。23万件のツール呼び出しという一次データの前に、「ユーザーの主観だ」という反論はもう成立しない。

問われているのは、Claude Codeという一製品の品質だけではない気がする。生成AIをインフラとして組織的に使う側が、いつ、何が、どれだけ静かに変えられているかを、外側から検証できる権利――その不在こそが、このIssueの根本にある。

ローレンゾのチームは、すでに別のプロバイダーへ移った。それでも彼女は、Issueを閉じずに残した。Anthropicが立て直すことを、まだ少しだけ信じている書きぶりだった。半年後、同じ題材で正反対の記事を書ける日が来るだろうか。

参照元

GitHub Issue #42796 - Claude Code is unusable for complex engineering tasks with the Feb updates

Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

情報の灯台

「Claudeはもう信用できない」と告発したのは誰か

数字が語る「劣化」の正体

引き金は「思考の隠蔽」だった

「最も安いほうの行動」を選ぶようになったAI

皮肉な逆説――「節約」が招いた巨額の浪費

Anthropicへの要求と、業界への警鐘

Claude自身による「自己解剖」

この告発が問いかけているもの

関連記事

Read more

Corsair Strix Halo PCが突如1100ドル値上げ

AI評価の「3〜5人多数決」は不十分、Googleが示した新基準

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

Anthropic、Google・Broadcomと数GW級TPU契約売上は3倍超

「Claudeはもう信用できない」と告発したのは誰か

数字が語る「劣化」の正体

引き金は「思考の隠蔽」だった

「最も安いほうの行動」を選ぶようになったAI

皮肉な逆説――「節約」が招いた巨額の浪費

Anthropicへの要求と、業界への警鐘

Claude自身による「自己解剖」

この告発が問いかけているもの

関連記事

Read more

Corsair Strix Halo PCが突如1100ドル値上げ

AI評価の「3〜5人多数決」は不十分、Googleが示した新基準

塗装なし、ラジオなし、電動窓なし。Slateの電気ピックアップは「引き算」で勝負する

Anthropic、Google・Broadcomと数GW級TPU契約 売上は3倍超

Anthropic、Google・Broadcomと数GW級TPU契約売上は3倍超