Geekbench 6.7がIntel BOT検出を実装、結果を「無効」に
Intelの最適化ツールがベンチマークスコアを水増ししている。Geekbenchを開発するPrimate Labsが、その結果を「無効」と切り捨てる機能を実装した。
Intelの最適化ツールがベンチマークスコアを水増ししている。Geekbenchを開発するPrimate Labsが、その結果を「無効」と切り捨てる機能を実装した。
BOT最適化を検出し、結果に「無効」フラグ
Primate Labsは2026年4月7日、Geekbench 6.7をリリースした。目玉機能は「Intel BOT Detection」だ。IntelのBinary Optimization Tool(BOT)が有効な環境でベンチマークを実行すると、その結果はGeekbench Browserで「無効」とフラグが立てられる。
「この検出コードは、システム間・プラットフォーム間でGeekbenchの結果を比較可能にするための取り組みの一環です」
Primate Labsの創業者ジョン・プールはそう説明する。だが、2週間にわたる調査報告の内容を見れば、この一言では済まない問題だとわかる。
Intel BOTとは何か
BOTはIntelが2026年3月にCore Ultra 200S PlusおよびCore Ultra Series 3(Panther Lake)向けにリリースした最適化ツールだ。実行ファイルの命令シーケンスを書き換え、Intel製CPUに最適化されたコードに変換する。
問題は、このツールが対応するアプリケーションがごく少数だという点だ。対応リストにはGeekbench 6.3が含まれていた。
5.5%のスコア上昇、一部ワークロードは30%
Primate Labsは1週間かけてBOTの動作を調査した。Core 9 386H搭載のMSI Prestige 16 AI+でテストしたところ、Geekbench 6.3のシングルコア・マルチコアスコアはBOT有効時に5.5%上昇。Object RemoverとHDRの2つのワークロードでは、最大30%もスコアが跳ね上がった。
Intel Software Development Emulatorを使った解析では、より踏み込んだ実態が見えた。HDRワークロードにおいて、総命令数が14%減少。スカラ命令は62%減り、ベクトル命令は1,366%増加していた。
「BOTはコードを単純に並べ替えているのではなく、スカラ命令をベクトル命令に変換しています。Intelの公開ドキュメントには記載されていない、はるかに高度な変換です」
つまり、BOTはベンチマークのコードを根本から書き換えていた。
なぜこれが問題なのか
Geekbenchは多様な実アプリケーションの動作を反映するよう設計されている。コンパイラの最適化レベルもワークロードによって異なる。BOTはこの多様性を破壊し、「理論上の最高性能」を測定するものに変えてしまう。
プールの言葉は率直だ。
「BOTが全てのアプリケーションで動作するなら、私たちに異論はありません。興味深い最適化技術です。しかし現状、BOTはほんの一握りのアプリしかサポートしていない。BOT最適化されたベンチマーク結果は、実際のCPU性能を示していません。Intel製プロセッサがAMDや他社製品より速く見えてしまうのです」
チェックサムで「狙い撃ち」
調査の中で、BOTの動作原理も明らかになった。初回起動時に40秒の遅延が発生し、この間にBOTはGeekbench実行ファイルのチェックサムを計算している。既知のバイナリと一致すれば、最適化済みコードが適用される。
Geekbench 6.7でテストすると、スコアの変化はほぼゼロだった。BOTは特定バージョンのGeekbenchだけを「狙い撃ち」している。新しいバージョンは認識されないため、最適化が効かない。
6.7で何が変わるか
Geekbench 6.7はBOTの動作を検出し、結果に「無効」フラグを付ける。これにより、BOTが有効でない環境での結果からは警告が消える。
一方、Geekbench 6.6以前のバージョンでは、BOT対応CPUからの全ての結果に引き続き警告が表示される。「このベンチマーク結果は、システム上で動作可能なバイナリ変更ツールにより無効の可能性があります」という文言だ。
その他のアップデート
6.7にはBOT検出以外の改善も含まれる。AndroidではSoCの識別方法が変更され、「ARM ARMv8」のような汎用的な表記ではなく「QTI SM8850」のようにメーカー名とモデル名が表示される。RISC-VではISA文字列の代わりにCPU名が表示されるようになった。Linux ARM環境でのマルチスレッドワークロードにおけるハング問題も修正された。
ベンチマーク信頼性の行方
Intelは現時点でBOTを「オプション機能」として位置づけている。ゲームや一部アプリケーションを最適化する技術として紹介されており、Geekbenchへの対応は「概念実証」と説明されている。
だが、概念実証が公開ベンチマークに適用された時点で、話は変わる。ベンチマークスコアは購買判断に直結する。そのスコアが特定ベンダーの最適化によって歪められているなら、消費者は何を見て選べばいいのか。
Primate Labsはフラグを立て続けると宣言した。Intelがどう応じるか。あるいは、BOTの対応アプリケーションを拡大して「正当な最適化」として認められる道を選ぶのか。
ベンチマークが信用できなくなったら、何を見て買えばいいのか。
参照元
関連記事
- Intel BOTの命令変換、Geekbenchが解析
- Intel Core Ultra X9 378H投入──中身はX7と同一
- Nova LakeはIPC優位、クロックはZen 6が制す
- Nova Lake-Sの42コアが44コアに増量、Intelが設計を修正
- Intel「Wildcat Lake」全6モデルの仕様が流出──格安PCの景色が変わる
- Intel Arrow Lake Refresh、発売2日で希望小売価格を超える値付けが全米で常態化
- AMD EPYC Venice「Zen 6」ESが3つのSP7プラットフォームから流出
- Intel Core Ultra 200S Plus、AMDとのゲーム比較で見えた「本音」
- AMD 9950X3D2は899ドル、狙いはゲーマーではない
- Snapdragon X2 Eliteのゲーム性能が大幅向上、だが「買う理由」にはまだ足りない