トークン単価こそ唯一の指標——NVIDIAが「FLOPS神話」に挑む

今まで通りの"安いGPU"選びが、AI事業を赤字化させる。NVIDIAが公式ブログで展開した主張の核心はそこにある。

トークン単価こそ唯一の指標——NVIDIAが「FLOPS神話」に挑む
NVIDIA

今まで通りの"安いGPU"選びが、AI事業を赤字化させる。NVIDIAが公式ブログで展開した主張の核心はそこにある。


データセンターは「AIトークン工場」に変わった

従来のデータセンターは、データを蓄積・検索・処理する施設だった。生成AIエージェントAI(agentic AI)の時代に入って、その役割は根本から変わっている。今の主要ワークロードはAI推論(インファレンス)であり、施設が生産するのは「トークン」という形の知性だ。

NVIDIAは4月15日の公式ブログで、この構造変化に伴いAIインフラのTCO(総所有コスト)の評価軸も変えるべきだと論じた。

NVIDIA
データセンターはトークンを製造するAI工場へと進化した。出力で動くビジネスを、入力指標で最適化するのは根本的なミスマッチだ。

企業がいまだに使いがちな評価軸として、NVIDIAは3つを挙げる。GPU時間単価(クラウドやオンプレミスの稼働コスト)、FLOPSドル換算(1ドルで得られる演算性能)、そしてトークン単価(100万トークンあたりの実コスト)の3つだ。最初の2つは「投入指標」に過ぎない。

「推論の氷山」——表面に見えるものと水面下の現実

NVIDIAがこのブログで持ち出したのが「推論の氷山」という概念だ。

NVIDIA

氷山の水面上に見えているのは、GPU時間単価やFLOPS数といった比較しやすいスペック。水面下に隠れているのは、実際のトークン出力量を左右するあらゆる要素——ネットワーク性能、FP4精度サポート、投機的デコーディング(speculative decoding)やKVキャッシュオフローディング、エージェントAIに求められる超低レイテンシ対応など——の積み重ねだ。

「推論の氷山」——見えているコストと、見えていない決定要因
🔺 水面上(比較されやすい指標)
GPU時間単価 ピークFLOPS FLOPSドル換算 HBMメモリ容量
━━━━ 水面 ━━━━
🔻 水面下(実際のトークン出力を決める要因)
MoEモデル対応のスケールアップ接続 FP4精度サポート 投機的デコーディング KVキャッシュオフロード 分離型サービング KV対応ルーティング エージェントAI超低レイテンシ 推論〜学習の全工程対応 オープンソース推論ソフトの継続最適化
35× 水面下の最適化が積み重なることで、
コスト2倍のGPUが100万トークン単価では35分の1を実現
※ NVIDIAブログ「Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters」(2026年4月15日)の概念整理に基づく。

問題は、水面上だけを見て「安い」と判断したGPUが、水面下の最適化不足から実際のトークン生産量で大幅に劣ることがある点だ。

BlackwellはHopperより高い、でもトークン単価は35分の1

NVIDIAのブログが提示した数字は、その乖離を具体的に示している。DeepSeek-R1モデルで比較した場合、GPU時間単価はBlackwell(GB300 NVL72)が1時間2.65ドルでHopper(HGX H200)の1.41ドルのおよそ 2倍 だ。FLOPSドル換算でも2倍の差に留まる。

ところが実際の出力を見ると話が変わる。

1秒あたりのトークン生成数はHopperの90トークン/GPUに対し、Blackwellは6,000トークン/GPUと 65倍 の差がある。電力消費1メガワットあたりのトークン出力は50倍。その結果、100万トークンあたりのコストはHopperの4.20ドルから0.12ドルまで落ちる——つまり 35分の1 だ。

Hopper vs Blackwell — 指標別コスト比較(DeepSeek-R1)
指標 Hopper
HGX H200
Blackwell
GB300 NVL72
Blackwellの倍率
GPU時間単価 $1.41 $2.65
FLOPSドル換算 2.8 PFLOPS 5.6 PFLOPS
トークン/秒/GPU 90 6,000
65×
トークン/秒/MW 54,000 2.8M
50×
100万トークン単価 $4.20 $0.12
1/35
※ NVIDIA社内分析およびSemiAnalysis InferenceX v2ベンチマークに基づく。倍率バーは最大値(65×)を基準に相対表示。

数字だけ見れば「2倍高いGPU」でも、出力で割ると35分の1に化ける。コスト比較の基準点をどこに置くかで、意思決定が180度変わるという論点だ。

Blackwellの場合、DeepSeek-R1での100万トークンあたりのコストは0.12ドル。Hopperの4.20ドルから35分の1まで下がっている。(NVIDIAとSemiAnalysis InferenceX v2ベンチマークによるデータ)

「ベンダーが提案する指標には警戒が必要」——アナリストの留保

もっとも、この主張をそのまま受け取るべきかは別の話だ。

Moor Insights & Strategyのシニアデータセンターアナリスト、マット・キンボール(Matt Kimball)はData Center Knowledgeの取材に対し、「ベンダーが成功の定義を自ら提唱するとき、当然の懐疑心が生まれる」と指摘した。

トークン経済学——つまりトークン単価——はNVIDIAに有利な指標だ。同社はシリコンからソフトウェアまでシステム全体を握っており、その定義を押し出すことには明らかな理由がある。

キンボールはNVIDIAがフルスタックプロバイダーとしてハードとソフト両面で性能向上を積み上げられる点は認めつつも、率直にこう述べた。「この指標を企業ITの成功基準として受け入れるのは時期尚早だ。完全に理解するまでには少なくとも2年はかかる」と。さらに、トークン単価が最良でも、ユーザーが遅すぎる・精度が低いと感じれば意味がないとも付け加えた。

また別の批評として、「トークンを安く生産することと、それが企業の収益創出に直結するかどうかは別問題」という指摘もある。生産コストの低下が自動的に有益な製品や顧客収益に結びつくわけではない、という現実だ。

指標の選択が、インフラ投資の命運を分ける

NVIDIAの主張の骨格自体は筋が通っている。同じ電力予算の中でどれだけのトークンを生産できるかが、AIサービスの収益性を規定するというロジックは、クラウドプロバイダーや大規模インフラ運営者にとって実用的な評価軸だ。

CoreWeave、Nebius、Together AIといったパートナー各社がBlackwellインフラを導入し、本番環境でそのコスト優位性を確認していることも、単なる机上の計算ではないことを示している。

一方で、スタートアップや中小規模の企業にとっては、初期投資コストや自社ワークロードの特性、ベンダー依存リスクなども含めた多角的な評価が引き続き必要だ。「トークン単価最強」の一点だけで巨額のインフラ投資を正当化するのは、別の意味での「入力指標への過剰最適化」になりうる。

指標の選び方が投資判断を変える——NVIDIAが言いたいのはその通りだが、どの指標を使うかの選択にもまた、設計者の意図が宿っていることを忘れない方がいい。


参照元

他参照


#AI #GPU #データセンター #NVIDIA #NVIDIA Blackwell #インフラ #生成AI #機械学習 #クラウド #DeepSeek

@NVIDIAAIインフラ評価指標をFLOPSドル換算からトークン単価へ転換すべきと公式に主張した。DeepSeek-R1ベンチマークGPU時間単価が2倍のBlackwellがHopperに対してトークン生成量65倍、100万トークンコスト35分の1を実現と示す。「その指標はNVIDIAに有利な設計」というアナリストの留保も含め、指標の選択自体に設計者の意図が宿ることを示す事例だ。

関連記事

Read more

1メガビットDRAM商用化から40年、主役は三度入れ替わった

1メガビットDRAM商用化から40年、主役は三度入れ替わった

40年前の今日、IBMが世界で初めて1メガビットDRAMを商用機に載せた。日本勢が世界シェアの75%を押さえつつあった時代、米国が「まだ先頭にいる」と示したかった一枚のチップだった。 40年前の今日、メガビット時代が開いた 1986年4月18日、IBMが世界で初めて1メガビットのDRAMチップを商用コンピューターに搭載したと報じられた。搭載先は同社のメインフレーム IBM 3090(Sierraシリーズ)。前年に発表されたばかりのフラグシップ機だ。 当時の個人向けPCに積まれていたのは 64キロビット のメモリチップが主流で、日本勢が量産していた最先端も256キロビットにすぎなかった。一気にその4倍の容量を、1.2ミクロンプロセスで実現したのがIBMの新チップだった。 チップは米バーモント州エセックス・ジャンクションの半導体工場で作られた。IBMはそこを強調した。上級副社長のジャック・D・キューラー(Jack D. Kuehler)は、これを「我々の半導体技術における先進性の証」と位置づけた。 東京の工場ではなく、我が社のバーモント工場で作られたチップ。キューラーはその一点

Microsoft Fairwater、前倒し稼働の裏で「Microslop」と呼ばれる現実

Microsoft Fairwater、前倒し稼働の裏で「Microslop」と呼ばれる現実

Microsoft(マイクロソフト)がウィスコンシン州のAIデータセンター「Fairwater」を予定前倒しで稼働させた。しかしナデラCEOのX発表は「Microslop」と揶揄する反応に埋もれ、想定外の温度の批判にさらされている。 単一クラスタに数十万基のBlackwell、前倒し稼働の中身 Fairwaterは315エーカーの敷地に3棟を構えるAI専用施設で、2024年5月に33億ドル(約5,200億円)規模の投資として発表されたプロジェクトだ。2025年9月にはMicrosoftがさらに40億ドルの追加投資を発表し、第2棟の建設計画も走っている。サティア・ナデラ(Satya Nadella)は4月16日のX投稿で「ウィスコンシンのFairwaterが予定より早く稼働する。世界で最も強力なAIデータセンターとして、数十万基のGB200を単一シームレスクラスタに統合する」と明かした。 Our Fairwater datacenter in Wisconsin is going live, ahead of schedule. As the world’s most powe