トークン単価こそ唯一の指標——NVIDIAが「FLOPS神話」に挑む

今まで通りの"安いGPU"選びが、AI事業を赤字化させる。NVIDIAが公式ブログで展開した主張の核心はそこにある。

情報の灯台

2026年4月17日

NVIDIA

今まで通りの"安いGPU"選びが、AI事業を赤字化させる。NVIDIAが公式ブログで展開した主張の核心はそこにある。

データセンターは「AIトークン工場」に変わった

従来のデータセンターは、データを蓄積・検索・処理する施設だった。生成AIとエージェントAI（agentic AI）の時代に入って、その役割は根本から変わっている。今の主要ワークロードはAI推論（インファレンス）であり、施設が生産するのは「トークン」という形の知性だ。

NVIDIAは4月15日の公式ブログで、この構造変化に伴いAIインフラのTCO（総所有コスト）の評価軸も変えるべきだと論じた。

データセンターはトークンを製造するAI工場へと進化した。出力で動くビジネスを、入力指標で最適化するのは根本的なミスマッチだ。

企業がいまだに使いがちな評価軸として、NVIDIAは3つを挙げる。GPU時間単価（クラウドやオンプレミスの稼働コスト）、FLOPSドル換算（1ドルで得られる演算性能）、そしてトークン単価（100万トークンあたりの実コスト）の3つだ。最初の2つは「投入指標」に過ぎない。

「推論の氷山」——表面に見えるものと水面下の現実

NVIDIAがこのブログで持ち出したのが「推論の氷山」という概念だ。

氷山の水面上に見えているのは、GPU時間単価やFLOPS数といった比較しやすいスペック。水面下に隠れているのは、実際のトークン出力量を左右するあらゆる要素——ネットワーク性能、FP4精度サポート、投機的デコーディング（speculative decoding）やKVキャッシュオフローディング、エージェントAIに求められる超低レイテンシ対応など——の積み重ねだ。

「推論の氷山」——見えているコストと、見えていない決定要因

🔺 水面上（比較されやすい指標）

GPU時間単価ピークFLOPS FLOPSドル換算 HBMメモリ容量

━━━━ 水面 ━━━━

🔻 水面下（実際のトークン出力を決める要因）

MoEモデル対応のスケールアップ接続 FP4精度サポート投機的デコーディング KVキャッシュオフロード分離型サービング KV対応ルーティングエージェントAI超低レイテンシ推論〜学習の全工程対応オープンソース推論ソフトの継続最適化

35× 水面下の最適化が積み重なることで、
コスト2倍のGPUが100万トークン単価では35分の1を実現

※ NVIDIAブログ「Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters」（2026年4月15日）の概念整理に基づく。

問題は、水面上だけを見て「安い」と判断したGPUが、水面下の最適化不足から実際のトークン生産量で大幅に劣ることがある点だ。

BlackwellはHopperより高い、でもトークン単価は35分の1

NVIDIAのブログが提示した数字は、その乖離を具体的に示している。DeepSeek-R1モデルで比較した場合、GPU時間単価はBlackwell（GB300 NVL72）が1時間2.65ドルでHopper（HGX H200）の1.41ドルのおよそ 2倍だ。FLOPSドル換算でも2倍の差に留まる。

ところが実際の出力を見ると話が変わる。

1秒あたりのトークン生成数はHopperの90トークン/GPUに対し、Blackwellは6,000トークン/GPUと 65倍 の差がある。電力消費1メガワットあたりのトークン出力は50倍。その結果、100万トークンあたりのコストはHopperの4.20ドルから0.12ドルまで落ちる——つまり 35分の1 だ。

Hopper vs Blackwell — 指標別コスト比較（DeepSeek-R1）

指標	Hopper HGX H200	Blackwell GB300 NVL72	Blackwellの倍率
GPU時間単価	$1.41	$2.65	2×
FLOPSドル換算	2.8 PFLOPS	5.6 PFLOPS	2×
トークン/秒/GPU	90	6,000	65×
トークン/秒/MW	54,000	2.8M	50×
100万トークン単価	$4.20	$0.12	1/35

※ NVIDIA社内分析およびSemiAnalysis InferenceX v2ベンチマークに基づく。倍率バーは最大値（65×）を基準に相対表示。

数字だけ見れば「2倍高いGPU」でも、出力で割ると35分の1に化ける。コスト比較の基準点をどこに置くかで、意思決定が180度変わるという論点だ。

Blackwellの場合、DeepSeek-R1での100万トークンあたりのコストは0.12ドル。Hopperの4.20ドルから35分の1まで下がっている。（NVIDIAとSemiAnalysis InferenceX v2ベンチマークによるデータ）

「ベンダーが提案する指標には警戒が必要」——アナリストの留保

もっとも、この主張をそのまま受け取るべきかは別の話だ。

Moor Insights & Strategyのシニアデータセンターアナリスト、マット・キンボール（Matt Kimball）はData Center Knowledgeの取材に対し、「ベンダーが成功の定義を自ら提唱するとき、当然の懐疑心が生まれる」と指摘した。

トークン経済学——つまりトークン単価——はNVIDIAに有利な指標だ。同社はシリコンからソフトウェアまでシステム全体を握っており、その定義を押し出すことには明らかな理由がある。

キンボールはNVIDIAがフルスタックプロバイダーとしてハードとソフト両面で性能向上を積み上げられる点は認めつつも、率直にこう述べた。「この指標を企業ITの成功基準として受け入れるのは時期尚早だ。完全に理解するまでには少なくとも2年はかかる」と。さらに、トークン単価が最良でも、ユーザーが遅すぎる・精度が低いと感じれば意味がないとも付け加えた。

また別の批評として、「トークンを安く生産することと、それが企業の収益創出に直結するかどうかは別問題」という指摘もある。生産コストの低下が自動的に有益な製品や顧客収益に結びつくわけではない、という現実だ。

指標の選択が、インフラ投資の命運を分ける

NVIDIAの主張の骨格自体は筋が通っている。同じ電力予算の中でどれだけのトークンを生産できるかが、AIサービスの収益性を規定するというロジックは、クラウドプロバイダーや大規模インフラ運営者にとって実用的な評価軸だ。

CoreWeave、Nebius、Together AIといったパートナー各社がBlackwell インフラを導入し、本番環境でそのコスト優位性を確認していることも、単なる机上の計算ではないことを示している。

一方で、スタートアップや中小規模の企業にとっては、初期投資コストや自社ワークロードの特性、ベンダー依存リスクなども含めた多角的な評価が引き続き必要だ。「トークン単価最強」の一点だけで巨額のインフラ投資を正当化するのは、別の意味での「入力指標への過剰最適化」になりうる。

指標の選び方が投資判断を変える——NVIDIAが言いたいのはその通りだが、どの指標を使うかの選択にもまた、設計者の意図が宿っていることを忘れない方がいい。

参照元

NVIDIAブログ — Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters

他参照

Data Center Knowledge — Nvidia Pushes 'Cost Per Token' as Defining Metric for AI Data Centers

#AI #GPU #データセンター #NVIDIA #NVIDIA Blackwell #インフラ #生成AI #機械学習 #クラウド #DeepSeek

@NVIDIAがAIインフラの評価指標をFLOPSドル換算からトークン単価へ転換すべきと公式に主張した。DeepSeek-R1ベンチマークでGPU時間単価が2倍のBlackwellがHopperに対してトークン生成量65倍、100万トークンコスト35分の1を実現と示す。「その指標はNVIDIAに有利な設計」というアナリストの留保も含め、指標の選択自体に設計者の意図が宿ることを示す事例だ。