Intel 8086の「遅すぎる掛け算」を2.5倍速にしたISAカードの話

2026年に、1980年代のチップで「掛け算が遅い」という40年越しの問題を力技で解決した人がいる。しかも、自作のISA拡張カードで。

Intel 8086の「遅すぎる掛け算」を2.5倍速にしたISAカードの話
@bradthx

2026年に、1980年代のチップで「掛け算が遅い」という40年越しの問題を力技で解決した人がいる。しかも、自作のISA拡張カードで。


8086は掛け算が致命的に遅かった

コンピュータサイエンティストのブラッド(@bradthx)が、Intel 8086/8088向けのハードウェア乗算アクセラレータカードを自作し、Xで公開した。

https://x.com/bradthx/status/2039703302695182551

なぜわざわざそんなものを作るのか。理由は単純だ。初期のx86プロセッサにおけるMUL命令は、率直に言って使い物にならないほど遅い。整数乗算が約2.5倍高速化されるというこのカードの成果が、その「遅さ」の深刻さを物語っている。

8086のMUL命令は、マイクロコードで制御されるシフト&加算の繰り返しで実装されていた。ブラッドの言い方を借りれば、「紙の上でやる筆算のバイナリ版」をCPU内部でひたすら回していたのだ。

8ビットレジスタ同士の乗算で70〜77クロックサイクル、16ビットなら118〜133サイクルかかる。5MHzの8086では、たかが1回の掛け算に14〜15マイクロ秒を浪費する計算だ。
Intel 8086 命令別クロックサイクル(5MHz)
MUL 16bit 符号なし16ビット乗算
118〜133 cycle
MUL 8bit 符号なし8ビット乗算
70〜77 cycle
MUL 16bit 80286(1982年)
21 cycle
ADD reg,reg レジスタ間加算
3 cycle
8086のMUL命令はマイクロコードによるシフト&加算の反復で実装。80286で専用回路に移行し大幅に短縮された

ADD命令がわずか3サイクルで済むことを考えると、この遅さは異常だ。1982年に登場した80286がMUL命令を21サイクルにまで短縮したのは、Intel自身がこのボトルネックをわかっていた証拠だろう。


40年前の軍用チップを引っ張り出す

ブラッドが目をつけたのはTRW社のMPY12HJだ。12×12ビットの並列乗算器で、もともと航空宇宙や軍事用途の高速信号処理向けに設計されたチップである。

このチップが面白いのは、完全に非同期で動作するところだ。クロック信号がいらない。ビットがシリコン内部を伝播する速度がそのまま演算速度になる。CPUがマイクロコードをぐるぐる回している間に、こいつは一瞬で答えを出す。

TRW LSI Productsは、TTLロジックゲートの発明者ジェームズ・ビューイが在籍した半導体部門だ。航空宇宙・ミサイル誘導のDSP需要を背景に、1976年から並列乗算器の開発を進めていた。MPY12HJはその系譜に連なるチップで、ソ連もM1802VR4としてクローンを製造したほど実績がある。

TRW乗算器シリーズは1970年代後半から1980年代に生産されていた。つまり、1981年にIBM PCがISAスロットを世に送り出した時点で、このアプローチは技術的に実現可能だった。当時のエンジニアが「MUL命令が遅いなら外部ハードウェアで殴ればいい」と思わなかったとは考えにくい。コストと需要のバランスが合わなかったのか、それとも単に誰もやらなかっただけなのか。


ISAバスのボトルネックをどう潰したか

ISAカード上に乗算器を置くということは、CPUとカードの間でデータをやり取りするバス転送のオーバーヘッドが発生する。

バス転送の中身

初期ISAバスは8ビット幅しかない。1回の乗算では、オペランドAとBの書き込み2回、結果の上位・下位バイト読み出し2回、計4回のバス転送が必要になる。

ブラッドの計算によれば、この一連の転送にかかるコストは32CPUクロック、5MHzでの時間換算で約6.4マイクロ秒だ。

ここでTRW乗算器の非同期性が効いてくる。115ナノ秒で乗算結果が確定するということは、バスがデータを運んでいる間に、チップはとっくに答えを出し終わっている。乗算器自体の計算時間は事実上ゼロに近く、実効的なボトルネックはバス転送のみだ。

CPUの内蔵MUL命令が14〜15マイクロ秒かかるのに対し、このカードは約6マイクロ秒で処理を完了する。差し引き約8マイクロ秒の短縮で、トータル約2.5倍の高速化。遅い掛け算を力技で殴り倒した格好だ。

8ビット乗算の実行時間(5MHz動作時)
CPU内蔵MUL 8086マイクロコード
約14〜15 μs
TRW ISAカード バス転送32クロック含む
約6.4 μs
2.5倍速
TRWチップ単体 MPY12HJ伝播遅延
115 ns
ISAカードのボトルネックはバス転送(6.4μs)。TRW乗算器の演算自体は115nsで完了する

既存ソフトは速くならない

ここが一番大事な点だ。このカードは、既存のコンパイル済みアプリケーションを勝手に高速化するものではない。

CPUのMUL命令をハードウェアレベルで横取りする仕組みではなく、専用サブルーチンを経由して呼び出す設計だ。ブラッドはXで「自分が書くプログラムでは、内蔵のx86 MUL命令の代わりにハードウェア乗算器を使う独自サブルーチンを呼べる」と説明している。だから、手元にあるDOSゲームやビジネスソフトがいきなり速くなることはない。

ブラッド自身、「2026年に必要なものではないのは明白だ。けど、作る価値は間違いなくあった」と言い切っている。

この制約は、1980年代に実在した286アクセラレータカード(Intel InBoard 386など)とは対照的だ。それらはCPUソケットにリボンケーブルで接続し、既存ソフトを透過的に高速化できた。乗算「だけ」を外部ハードウェアに投げるという発想が当時製品化されなかったのは、この互換性の壁が大きかったのだろう。


同じ発想は今も繰り返されている

汎用プロセッサの内部で汎用的に処理するか、専用ハードウェアにオフロードするか。この判断は、2026年の今もまったく同じ形で存在している。

40年前の乗算器と現代のAMX

Intel自身が2023年にSapphire Rapidsで導入したAMX(Advanced Matrix Extensions)は、行列演算を専用ハードウェアにオフロードする仕組みだ。GPUNPUも本質的には同じアプローチで、「CPUが苦手な処理は専用ハードウェアに任せろ」という設計判断にほかならない。

ブラッドのカードがやったことは、スケールこそ違えど構造は同じだ。遅い処理を見つけて、専用チップに丸投げする。半導体業界が半世紀かけてたどり着いた結論を、1枚のISAカードとヴィンテージチップで実演してみせた。

「2026年に必要ない」とブラッドは言うが、この設計思想は2026年のデータセンターでも主役を張っている。変わったのはトランジスタの数であって、考え方ではない。


参照元

関連記事

Read more

NYTよりCatturdが伸びる、Xという「フリークショー」の構造

NYTよりCatturdが伸びる、Xという「フリークショー」の構造

フォロワー5300万のニューヨーク・タイムズが、速報を流しても「いいね」は数百止まり。一方で「Catturd」のような匿名アカウントが、その何倍もの反応を得ている。Xで何が起きているのか。 ネイト・シルバーが突きつけた一枚のグラフ 統計家のネイト・シルバーが、自身のニュースレター「Silver Bulletin」で公開した記事が、英語圏で静かに広がっている。タイトルは「Social media has become a freak show」。直訳すれば「ソーシャルメディアは見世物小屋になった」だ。 中心にあるのは一枚のバブルチャートだった。2026年1月1日から4月4日までの期間に、Xで最もエンゲージメントを集めたアカウントを並べたものだ。データは分析プラットフォームのCluvioが集計し、視覚化はClaudeを使って彼自身が作り直している。 https://www.natesilver.net/p/social-media-has-become-a-freak-show そこに浮かび上がるのは、見たことのある名前と、ほとんど見たことのない名前が入り混じった奇妙な勢力図だ

Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

Claude Code劣化問題、AMDのAI責任者が膨大なログで告発

「2月以降、Claude Codeは複雑なエンジニアリング業務を任せられる代物ではなくなった」――AMDのAIグループ責任者がそう断じた。感情論ではない。6,852セッション、23万件超のツール呼び出しを解析した数字が、その劣化を裏付けている。 「Claudeはもう信用できない」と告発したのは誰か GitHubのclaude-codeリポジトリに、4月2日付(米国時間)で投稿された一本のIssue(#42796)が波紋を広げている。投稿者はステラ・ローレンゾ。半導体大手AMDでAIグループのシニアディレクターを務める人物であり、社内でClaude Codeを大規模に運用してきた当事者だ。 タイトルは率直そのものだ。「2月のアップデート以降、複雑なエンジニアリング業務にClaude Codeは使えない」。 https://github.com/anthropics/claude-code/issues/42796 ここで重要なのは、その主張の裏付けが「最近どうも調子が悪い」式の印象論ではなかったことだ。ローレンゾのチームは、自分たちが業務で蓄積してきた6,852セッション分の