X3Dはゲーム専用じゃなかった、RAGで光る大容量キャッシュ

情報の灯台

2026年4月20日

AMDの3D V-Cacheが本来狙っていた用途は、どうやらゲームではなかったらしい。ローカルRAG環境でX3D搭載CPUが非X3Dを大きく引き離す検証結果が公開され、大容量キャッシュの真価が見えてきた。

「ゲーム性能のためのキャッシュ」という思い込み

AMDのRyzen X3Dシリーズは、発売以来「ゲーミング向けCPU」として語られ続けてきた。ベンチマークで平均フレームレートが跳ね上がり、レビュアーも購入者も、3D V-Cacheはゲームのためにあると信じて疑わなかった。

ところがこの前提が、ひとつのベンチマークであっさり崩れた。

きっかけは韓国のハードウェアコミュニティGigglehdに投稿された一本のレビューだ。投稿者の필낄氏は、「X3Dは本当にゲーム専用なのか」という素朴な疑問から、ローカルRAG環境での性能検証を実施した。使用したのはGitHubで公開されているオープンソースベンチマーク、x3d-rag-benchmark。名前の通りX3D評価を意識して設計されたものだが、AMD公式のツールではなく有志のプロジェクトだ。

結果は、X3Dが本来どこで光る設計だったのかを物語るものになった。

RAGが突きつけた「CPUキャッシュの重要性」

なぜRAG（Retrieval-Augmented Generation）でCPUが効いてくるのか。ここを押さえないと今回の結果は読み解けない。

LLMは学習時点の知識しか持たない。2026年4月のニュースを2026年1月までのデータで学習したモデルに聞いても、幻覚混じりの答えが返ってくるだけだ。そこで外部データベースから関連文書を検索して回答を組み立てるのがRAGという仕組みになる。

この「検索」の部分が、実はGPUではなくCPUの仕事だ。正確には、ベクトル検索で広く使われるHNSW（Hierarchical Navigable Small World）というアルゴリズムがCPUに向いている。HNSWはグラフのノードをランダムに辿りながら近傍文書を探すため、メモリアクセスが不規則になる。ここで効いてくるのが、アクセス速度の速い大容量キャッシュだ。

HNSWはメモリ上のグラフを飛び石のように辿っていく。キャッシュに乗り切らないグラフデータをメインメモリに取りに行く頻度が減れば、それだけで検索スループットが跳ね上がる。3D V-Cacheが積む64MBのL3は、この用途にあつらえたような設計に見える。

Morgan Stanleyのリサーチは、エージェント型AIのワークロードが増えるほどCPU処理の比重が上がっていく流れを示している。GPU一辺倒のAI像は、もう実態に合っていない。

ベンチマーク結果：X3Dが非X3Dを2倍近く引き離した

필낄氏がテストしたのは、Ryzen 7 9700X（非X3D、8コア）、Ryzen 7 9800X3D、Ryzen 7 9850X3D、Ryzen 9 9950X（非X3D、16コア）、Ryzen 9 9950X3D、そしてIntel Core Ultra 7 270K Plus、Core Ultra 9 285Kの7モデル。テスト環境はDDR5-6000 16GB、GeForce RTX 5080、Windows 11 25H2で統一されている。

100Kバッチ検索（QPS、高いほど良い）

Ryzen 7 9850X3Dが66,399 QPSを記録し、Ryzen 7 9700Xの35,285 QPSを 88%上回った 。同じ8コアCPU同士の比較で、キャッシュの有無だけでここまで差がつく。Ryzen 9 9950X（39,690）と比べても、8コアのX3Dが16コアの非X3Dを軽々と抜き去っている。

100K Batch Search スループット比較（QPS、高いほど良い）

R7 9850X3D8C / X3D

66,399

R7 9800X3D8C / X3D

64,253

R9 9950X3D16C / X3D

61,364

Core Ultra 9 285KIntel

52,296

Core Ultra 7 270K+Intel

48,801

R9 9950X16C / 非X3D

39,690

R7 9700X8C / 非X3D

35,285

AMD X3D

AMD 非X3D

Intel

※ DDR5-6000 16GB、GeForce RTX 5080、Windows 11 25H2環境。x3d-rag-benchmark（オープンソース）を用いた第三者測定。

「コア数よりキャッシュ容量」というRAGワークロードの特性が、これ以上ないほど明確に現れた数字だ。

200Kバッチ検索（QPS）

データベースが2倍になると差は縮むが、それでもRyzen 7 9850X3Dが52,944 QPS、Ryzen 7 9700Xが33,699 QPSで57%の差が残る。ワーキングセットがキャッシュに収まりきらなくなっても、X3Dの優位は崩れない。

インデックス構築（vec/s、高いほど良い）

100Kインデックス構築では、Ryzen 7 9850X3Dが2.93 vec/s、Ryzen 7 9700Xが6.08 vec/s。ここだけは非X3Dが倍近く速い。インデックス構築は単純な計算スループットが効く処理で、クロックの高い非X3Dが有利になる場面だ。

用途によって向き不向きがはっきり分かれている、というのが正直な読み方になる。

TTFT（最初のトークン生成時間、低いほど良い）

Ryzen 7 9700Xが119.6ms、Ryzen 7 9800X3Dが121.6ms、Ryzen 7 9850X3Dが124.4ms。TTFTに関してはGPU推論の比重が大きく、CPU間の差はほぼ消える。

TTFTのようなGPU律速の処理では、どんなCPUを積んでも結果は似たような数字になる。キャッシュ容量で差が出るのは、あくまでCPU側がボトルネックになる処理だけ。ここを混同すると「X3DはAI全般で速い」という雑な結論に転んでしまう。

Intel Core Ultraとの比較

Core Ultra 9 285Kの100Kバッチ検索は52,296 QPS、200Kで49,023 QPS。Ryzen 9 9950X3Dの61,364 / 46,778と比べるとバッチ検索ではIntelがやや優位な場面もあり、単純な「AMDの圧勝」ではない。ただし同一コア数帯のX3D vs 非X3Dの比較では、キャッシュの寄与が明確に現れている。

x3d-rag-benchmark 全指標結果一覧（7モデル比較）

指標	R7 9700X	R7 9800X3D	R7 9850X3D	R9 9950X	R9 9950X3D	U9 285K
Batch 100K	35,285	64,253	66,399	39,690	61,364	52,296
Batch 200K	33,699	52,703	52,944	37,429	46,778	49,023
Index 100K	6.08	2.97	2.93	4.94	3.06	3.70
Index 200K	15.28	9.31	9.19	13.06	8.85	9.60
Throughput	15.1	18.7	19.1	12.8	11.2	13.9
TTFT	119.6	121.6	124.4	106.0	121.6	148.5

※ 赤字は各指標の最良値。Batchは100K/200KバッチのQPS、Indexは100K/200Kインデックス構築のvec/s、Throughputはreq/s（すべて高いほど良い）。TTFTはミリ秒（低いほど良い）。U7 270K+（Intel）は紙面都合で省略。

この結果が意味すること

X3Dシリーズはこれまで「ゲームでフレームレートが伸びるCPU」として評価されてきた。けれどその本質は、CPUコアの近くに大容量の高速メモリを置くという、ずっと汎用的なアーキテクチャ選択だった。ゲームで成果が見えやすかっただけで、キャッシュが効く処理全般に対して優位性を持っていた、と考えるほうが自然だ。

RAGは今後、企業の文書検索、コーディングアシスタント、マルチエージェント推論へと広がっていく。Morgan Stanleyの見立てでは、エージェントAIの普及に伴いレイテンシのボトルネックがGPUからCPUへ移っていく。そのとき評価軸に加わるのが、キャッシュが豊富なCPUという指標だ。

AMDは4月22日、さらにこれを押し進めたRyzen 9 9950X3D2 Dual Editionを発売する。16コア、両CCDに2世代目3D V-Cacheを積み、L3総容量192MB、価格899ドル（約14万3000円）、TDP 200W。片側CCDだけに3D V-Cacheを載せていた従来のフラッグシップX3Dの弱点を潰した構成だ。

AMDがこの製品を「ゲーミングCPU」と呼ばず、敢えて「Dual Edition」としてハイエンド製品ラインに据えた背景には、X3Dをゲーム専用カテゴリから引き剥がしたい意図が読み取れる。RAGやEDA、科学計算といった大容量キャッシュが効く領域が、今後の主戦場になるという判断だろう。

1つのベンチマークだけで結論を出すのは早い

ただし、必ず添えておきたい留保がいくつかある。

第一に、これは個人が公開したオープンソースベンチマークでの結果だ。テスト環境の厳密な統制、反復計測、メタ・FAISSの実装バージョンなど、工業レベルの検証と同一視はできない。第二に、実運用のRAGパイプラインはベクトル検索だけで構成されるわけではない。埋め込み計算、LLM推論、後処理まで含めた総合性能はGPUの比重が依然大きい。第三に、テストに使われたデータベース規模は10万〜20万ベクトルと、個人PC・小規模チーム向けのスケールだ。大規模な分散ベクトルDBサービスを代表する数字ではない。

それでも、非X3Dとの間に88%という差が出た事実は小さくない。この差は実測であり、誰かの予測ではない。

AI推論におけるCPUの役割を再評価する動きは、今後もっと広がっていく。「ゲーミングCPU」というラベルは、X3Dにとっていつの間にか窮屈なものになっていたのかもしれない。

参照元