AMDとIntelが共同提唱、x86の行列演算を一気に16倍へ
AMDとIntelが共同で、x86アーキテクチャ向けの新しい行列演算拡張「ACE(AI Compute Extensions)」のホワイトペーパーを公開した。AVX10を土台に、行列乗算の演算密度を16倍に引き上げるという。なぜ今、競合する両社がここまで踏み込んだのか。
ノートPCからデータセンターまで、同じ命令で走る
ホワイトペーパー「The AI Compute Extensions (ACE) for x86」は、x86 Ecosystem Advisory Group(EAG、x86エコシステム諮問委員会)の名で2026年4月15日付で公開された。著者にはAMDからスチュアート・バイルズ(Stuart Biles)、ブライアン・トンプト(Brian Thompto)ら8名、Intelからアレクサンダー・ハイネッケ(Alexander Heinecke)、プラディープ・ドゥベイ(Pradeep Dubey)、イド・ウジエル(Ido Ouziel)の3名が名を連ねている。長らく競合してきた両社のエンジニアが、同じ仕様書に肩を並べて署名している。これは異例の出来事だ。
ACEが目指すのは「ノートPCからデータセンターまで、x86のあらゆる製品で使える標準的な行列演算アーキテクチャ」だ。AI推論はもはやサーバーだけの話ではない。手元のノートPCがチャットボットを動かし、画像を生成し、音声を文字起こしする時代に、CPUが行列乗算を効率よく回せないままでは、x86の存在意義そのものが揺らぐ。
Intelはすでに2023年、Sapphire Rapids世代のXeonプロセッサにAMX(Advanced Matrix Extensions)を実装している。だがAMXはサーバー専用に閉じており、AMDのRyzenには搭載されていない。ACEはここに「両社共通の仕様」という決着をつける試みであり、AMDとIntelが共同で定義する事実上の次世代AMXにあたる。
16倍の演算密度、その正体
ACEの中核は「アウタープロダクト演算」、つまりベクトルの外積を使った行列乗算だ。ホワイトペーパーが示す数字は強烈で、AVX10のVNNI INT8命令が1命令で64回の乗算を実行するのに対し、ACEのINT8アウタープロダクト演算は同じ2本の入力ベクトルから1024回の乗算を生み出す。
演算密度の比較(ホワイトペーパーより) AVX10 INT8: 1演算あたり乗算64回 / 入力ベクトル2本 ACE INT8: 1演算あたり乗算1024回 / 入力ベクトル2本 AVX10 BF16: 1演算あたり乗算32回 / 入力ベクトル2本 ACE BF16: 1演算あたり乗算512回 / 入力ベクトル2本
入力ベクトルの本数は同じで、生み出す乗算回数だけが16倍になる。この「同じ入力で16倍の仕事」が、ACEの省電力性能の正体だ。メモリ帯域とレジスタファイルへの負荷を増やさずに演算量だけを引き上げているため、消費電力あたりの性能(ワットあたりFLOPS)が大きく改善する。
ACEは8本のタイルレジスタ(512ビット×16行)を持ち、これを組み合わせた「4×2ブロック」カーネルを使うと、1回の外積演算あたり必要な512ビットベクトルロード数を2回から0.75回まで削減できる。データ供給がボトルネックになりやすいAI推論において、この差は実効性能に直結する。
| 指標 | 1×1 (単一タイル) |
4×2 (ブロック) |
|---|---|---|
| 1反復あたりの 外積演算数 |
1 | 8 |
| 1反復あたりの AVX10ベクトル数 |
2 | 6 |
| 1演算あたりの ロード回数 |
2.0 | 0.75 |
なぜ「外積」なのか
行列乗算を実装する方法は一つではない。GPUのテンソルコアやIntelのAMXは内積(ドット積)を基礎にした設計を採っている。一方ACEはあえて外積(アウタープロダクト)を選んだ。理由はホワイトペーパーが率直に書いている。外積はSIMDと相性がいいからだ。
AVX10の典型的な積和演算は「2本の入力ベクトル+1本の蓄積先ベクトル」という3オペランド構造を持つ。ACEのアウタープロダクト演算は、蓄積先がベクトルからタイルレジスタに変わるだけで、CPUのスケジューラから見れば「もう1つAVX10の演算ユニットが増えた」ようにしか見えない。
AVX10 VNNI INT8の組込み関数:__m512i _mm512_dpbssd_epi32(__m512i src, __m512i a, __m512i b);
ACE INT8 アウタープロダクトの組込み関数:void __tile_top4bssd(__tile1024i *dst, __m512i a, __m512i b);
蓄積先の型が変わるだけで、引数の構造は同型に保たれている。
これは設計上の優雅さ以上の意味を持つ。新しい命令セットを追加するとき、最大の難所は「既存のアウトオブオーダー実行エンジンとの折り合い」だ。命令スケジューラ、レジスタリネーミング、キャッシュ階層との連携。ここに余計な複雑さを持ち込むと、シリコン面積も検証コストも跳ね上がる。ACEはAVX10の「隣に並べる」設計を採ることで、この複雑さを最小限に抑えている。
論文中で参照されている1995年の[SUM95]文献、つまりロバート・ファン・ドゥ・ガイン(Robert van de Geijn)らの「SUMMA」アルゴリズムや、IBMがPower10で採用した[HOT20]アウタープロダクト方式の系譜に、ACEは連なる格好だ。決して新発明ではなく、既知の良いアイデアを「x86でやる」という選択である。
OCPマイクロスケーリング対応、フォーマットの政治学
ACEがサポートする数値フォーマットは多彩だ。INT8、BF16はもちろん、OCP FP8、OCP MXFP8、OCP MXINT8まで含む。ここで重要なのは「OCP MX形式のインラインブロックスケーリング」を商用プロセッサとして初めてネイティブ対応した点だ。
ACEは、OCP MX標準のデータ型をインラインブロックスケーリングを含めてサポートする、商用プロセッサアーキテクチャとしては初の試みだ。(ホワイトペーパーの記述を要約)
OCP MX(Open Compute Project Microscaling Formats)は、AMD、Arm、Intel、Meta、Microsoft、NVIDIA、Qualcommが共同で2023年9月にリリースした、低精度AIフォーマットの業界標準だ。FP4、FP6、FP8といった極めて短いビット幅で重みを表現しつつ、ブロックごとの共有スケール値で精度を保つ。LLMの推論コストを削減する切り札として注目されている。
ACEはこのOCP MX形式を、専用変換命令とブロックスケールレジスタ(1024ビット×1)でハードウェアレベルで扱う。つまり、ソフトウェア側で重みを変換してからCPUに食わせる必要がない。LLM推論のメモリフットプリントを直接削減できるということだ。AI PCの時代に向けて、これは決定的に重要な布石になる。
ACEは「AMXの後継」なのか
技術的に踏み込むと興味深い疑問が浮かぶ。Intelは既存のAMXを捨ててACEに乗り換えるのか、それとも併存させるのか。
ホワイトペーパーには「ACEは、AMXアクセラレータフレームワークの下に新しいパレットとしてソフトウェアに公開される」と書かれている。これは互換性の橋渡しを意識した表現で、AMX向けに書かれたシステムプログラマモデルやOSサポートをそのまま再利用できるよう設計されていることを示している。
ただし、命令セットの中身は変わっており、ACEとAMXの完全な互換性は保証されていない。Intelの既存のAMX対応コード(特にライブラリレベル)は、ACE対応プロセッサ上で動作させるために何らかの調整が必要になる可能性が高い。
AMDにとっては、これは事実上「初めての行列演算拡張」にあたる。Zen 6でのAVX10.1実装は確認済みだが、ACEがいつ載るかはまだ明確になっていない。Zen 7まで待つ可能性もある。IntelもNova Lakeやその先の世代でACEへ移行していくとみられる。
NVIDIAのCEOがx86同盟を歓迎する理由
EAGの結成が発表された2024年10月、NVIDIAのジェンスン・フアン(Jensen Huang)がこの動きを歓迎するコメントを出している。当初は「x86陣営がNVIDIAのAI支配に対抗する動き」と解釈されていただけに、当事者の発言は驚きを持って受け止められた。
フアンはCRNの取材に対し、x86のフラグメンテーション(断片化)が業界にとって良くなかったと明確に述べ、AMDとIntelがx86を「x86のままに」保つ取り組みを支持すると語っている。一見NVIDIAに不利な動きを歓迎する奇妙な発言だが、よく考えると筋が通る。NVIDIAのGPUとAIアクセラレータは、結局のところx86サーバーCPUと組み合わさって動く。x86が崩れれば、NVIDIAのデータセンタービジネスの土台もぐらつくのだ。
ARMやRISC-Vといった代替アーキテクチャの足音が近づくなか、x86陣営の足並みが揃うことは、PCとサーバー業界全体の安定にとって悪くない。競合関係と協調関係が同居するこの構図は、半導体業界の成熟を象徴している。
ソフトウェアエコシステムの宿題
仕様書ができ、ハードウェアが続いても、ソフトウェアが追いつかなければ意味がない。ACEのソフトウェア対応はまだ始まったばかりだ。コンパイラ、デバッガ、プロファイラへの統合が進行中で、今後はPyTorch、TensorFlowといったMLフレームワーク、NumPy・SciPyといったPython数値計算ライブラリへの組み込みが計画されている。
過去のAVX-512の苦い教訓がここに重なる。Intelが2013年7月に提唱したAVX-512は、対応CPUのカバレッジが斑模様になり、開発者が「使っていいのかどうか」迷う状況が長く続いた。リーナス・トーバルズ(Linus Torvalds)が「AVX-512には苦しい死を迎えてほしい」と発言したのは2020年7月のことだ。
ACEがその轍を踏まないためには、AMDとIntelが同じ世代の同じクラスの製品にACEを載せる必要がある。サーバーは載せるがクライアントは載せない、ハイエンドだけ載せて廉価モデルは外す。そういう「斑模様」の再来だけは避けねばならない。EAGという枠組みが目指すのは、まさにこの「揃える」という地味で面倒な合意形成だ。
拡張の未来形
ホワイトペーパーは末尾で、ACE単体の話を超えた展望に触れている。AVX10のVPERM命令族(VPERMB、VPERMI2B)を使った64エントリ・128エントリのルックアップテーブル変換、新規導入のVUNPACKB命令による2〜7ビットのパック解除。これらはAI領域に限らず、データ密度が問題になるあらゆるワークロードで使える可能性を秘めている。
[QUI24]として参照されているコードブック量子化(QuIP#)のような、新しいLLM圧縮手法にも対応できる柔軟性を意識した設計だ。3ビットの辞書セレクトと4ビットの要素フォーマットを組み合わせて、最大8つのコードブックを同じLUTレジスタペアから選択できる。
要するにACEは、現時点のAI需要に最適化されているだけでなく、将来の数値表現の進化に備えた拡張性を持っている。これがx86の「終わりの始まり」ではなく「次の章の始まり」だと両社が主張する根拠になる。
ACEは派手な発表ではない。新製品の発売日も、性能ベンチマークもまだない。だが10年後に振り返ったとき、2026年4月のホワイトペーパー公開は「x86がAI時代に踏みとどまった瞬間」として記録されるかもしれない。AMDとIntelが同じ仕様書に名を連ねたという事実こそが、この技術仕様の核心を物語っている。
参照元
- The AI Compute Extensions (ACE) for x86 - x86 Ecosystem Advisory Group Whitepaper
- Intel and AMD Form x86 Ecosystem Advisory Group to Accelerate x86 Innovation - AMD公式
関連記事
- X3Dはゲーム専用じゃなかった、RAGで光る大容量キャッシュ
- Intel、廃棄予定だったチップが利益源に、CPU需要が極限
- Intel Nova Lake、bLLC最大288MBで9950X3D2超え
- CPU不足はメモリより深刻、Intel 18Aが命運を握る
- Intel 8086の「遅すぎる掛け算」を2.5倍速にしたISAカードの話
- IntelのArrow Lake Refreshが評価された矢先に、年間30%の値上げ計画が浮上している
- CPU不足が深刻化──納期最大6ヶ月、メモリに続く第二の危機
- OpenAI目標未達でAI株動揺、6000億ドル投資の前提が揺らぐ
- 1930年で時間が止まったLLM、talkieが投げる問い
- 中国製コアを積んだロシア製CPU「イルティシュ」でウィッチャー3が動いた