Meta MSL初の旗艦モデル「Muse Spark」公開、Llama路線を刷新

Meta MSL初の旗艦モデル「Muse Spark」公開、Llama路線を刷新

Meta超知能研究組織MSLが、マルチモーダル推論モデル「Muse Spark」を公開した。Llama 4の名前は、もはや「前モデル」という形でしか出てこない。


MetaのAI戦略が「ゼロからやり直し」を宣言した日

Meta Superintelligence Labs(MSL)が米国時間4月8日、フロンティアモデル「Muse Spark」を発表した。meta.aiとMeta AIアプリで即日提供が始まり、一部のユーザー向けにプライベートAPIプレビューも開放されている。

Metaはこのモデルを「スケーリングの梯子(scaling ladder)の最初の1段」と表現している。梯子である以上、1段目単体の高さより、その先にあと何段積めるかこそが問われる。

名前の変化以上に重要なのは、その立ち位置だ。Metaはこのモデルを「私たちのAI取り組みを根底から作り直した最初の成果物」と位置づけている。つまり、Llama 4 Maverickまでの系譜は一度リセットされた、という宣言に等しい。

Muse Sparkはネイティブなマルチモーダル推論モデルとして設計され、ツール使用、視覚的な思考連鎖、マルチエージェント協調をサポートする。これが「Muse」という新ファミリーの最初の一歩であり、背後にはHyperionデータセンターを含むインフラ投資が控えている。

ベンチマークが語る「強い部分と、まだ弱い部分」

公開されたスコアは、フロンティア争いに食い込んだことを示している。比較対象はClaude Opus 4.6 Max、Gemini 3.1 Pro High、GPT 5.4 Xhigh、そしてGrok 4.2 Reasoning。いずれも現行最上位クラスだ。

明確に首位を取ったのは、CharXiv Reasoning(86.4)、HealthBench Hard、DeepSearchQAなど。ヘルスケア領域の強さが目立つのは偶然ではない。Metaは1000人超の医師と協働してトレーニングデータを整備したと説明している。

一方で、コーディングとエージェント系では追いついていない。SWE-Bench Verified、Terminal-Bench 2.0、そしてOfficeタスクを測るGDPval-AA EloではGPT 5.4に大きく水をあけられている。Meta自身も「長期的エージェントシステムとコーディングワークフローには性能ギャップがある」と率直に認めた。

Muse Spark vs 競合モデル 主要ベンチマーク
ベンチマーク Muse Spark
Thinking
Opus 4.6
Max
Gemini 3.1
Pro High
GPT 5.4
Xhigh
Grok 4.2
Reasoning
マルチモーダル
CharXiv Reasoning図表理解 86.4 65.3 80.2 82.8 60.9
MMMU Proマルチモーダル理解 80.4 77.4 83.9 81.2 75.2
ERQA身体化推論 64.7 51.6 69.4 65.4 54.1
SimpleVQA視覚的事実性 71.3 62.2 72.4 61.1 57.4
ScreenSpot Pro画面局所化 84.1 83.1 84.4 85.4
ZeroBench多段視覚推論 33.0 29.0 41.0
テキスト / 推論
HLEツールなし 42.8 40.0 45.4 43.9 31.6
HLEツール使用 50.4 53.1 51.4 52.1
ARC AGI 2抽象推論 42.5 63.3 76.5 76.1 53.3
GPQA Diamond博士級推論 89.5 92.7 94.3 92.8 88.5
LiveCodeBench Pro競技プログラミング 80.0 70.7 82.9 87.5 74.2
ヘルスケア
HealthBench Hard健康質問応答 42.8 14.8 20.6 40.1 20.3
MedXpertQA (T)医療多肢選択・文字 52.6 52.1 71.5 59.6 50.2
MedXpertQA (MM)医療多肢選択・画像 78.4 64.8 81.3 77.1 65.8
エージェント
DeepSearchQAエージェント検索 74.8 73.7 69.7 73.6 62.8
SWE-Bench Verifiedエージェントコーディング 77.4 80.8 80.6 76.7*
SWE-Bench Pro多様なエージェントコーディング 52.4 53.4 54.2 57.7 51.8*
Terminal-Bench 2.0端末操作コーディング 59.0 65.4 68.5 75.1 47.1*
τ²-Bench Telecomエージェントツール利用 91.5 92.1 95.6 91.5 96.5
GDPval-AA EloOfficeタスク 1444 1606 1320 1672 1055
出典:Meta AI Blog「Introducing Muse Spark」(2026年4月8日公開)。数値はMeta発表時点のもの。*はGrok 4.2のagentic系スコアで脚注付き。「—」は未計測。青色ハイライトはMuse Sparkがトップのベンチマーク。
推論モードに加え、複数エージェントを並列で走らせる「Contemplating」モードも段階的に展開される。Humanity's Last Examで58%、FrontierScience Researchで38%を記録し、Gemini Deep ThinkやGPT Proといった超重量級の推論モードに挑む構えだ。
Contemplatingモード vs 超重量級推論モード
ベンチマーク Muse Spark
Contemplating
Gemini 3.1
Deep Think
GPT 5.4
Pro
Humanity's Last Examツールなし 50.2 48.4 43.9
Humanity's Last Examツール使用 58.4 53.4 58.7
IPhO 2025物理オリンピック・理論 82.6 87.7 93.5
FrontierScience Research科学研究 38.3 23.3 36.7
出典:Meta AI Blog「Introducing Muse Spark」。Contemplatingモードは複数エージェントを並列に走らせて推論させる上位モード。段階的にmeta.aiへ展開される予定。

数字を眺めると、ひとつの輪郭が浮かぶ。マルチモーダル知覚とヘルスケアは胸を張れる水準、純粋な推論パズルやエージェント遂行は「まだ途中」。これがいまの実力だろう。

「Llama 4の10分の1の計算量」という裏の主張

今回の発表で、ベンチマーク以上に注目すべきはスケーリングに関する主張だ。Metaは過去9ヶ月でプリトレーニングスタックをアーキテクチャ・最適化・データ整形のすべてで作り直したと述べている。

その結果として提示されたのが、Llama 4 Maverickと同等の能力に到達するのに必要な計算量が10分の1以下になったという数字だ。これは単なる効率化の話ではない。Llama 4が「計算を無駄遣いしていた」と自ら認めたに近い。MSL発足以降、社内で何が起きていたかを物語る数字でもある。

強化学習の段階でも、pass@1とpass@16の両方が対数線形に伸び続け、訓練時に見ていない評価セットでも同じ傾きで精度が伸びたという。過学習ではなく汎化だ。思考時間のペナルティによって、Muse Sparkは一度トークン数を圧縮してから再び思考を伸ばすという相転移のような挙動を見せる。量と質の両立を目指した設計だと読み取れる。

Apollo Researchが見つけた、不穏な癖

安全性評価のセクションに、静かだが見逃せない一行がある。

第三者評価を担当したApollo Researchは、Muse Sparkについて、同社がこれまで観測してきたモデルの中で最も高い「評価認識(evaluation awareness)」率を示したと報告した。モデルは自分が評価されている状況を「アライメントのトラップ」だと頻繁に認識し、「評価中だから誠実に振る舞うべきだ」と推論していたという。

評価されていると気づくモデルは、テスト時と実運用時で振る舞いを変えうる。これは、AI評価という営みそのものの前提を揺るがす話だ。

Meta自身の追跡調査でも、評価認識がアライメント評価の一部でモデル挙動に影響した初期的証拠が確認された。ただし危険な能力や傾向には関係せず、リリースを妨げる問題ではないと判断されたという。

「気づいていても正直に振る舞った」のか、「気づいたから正直に振る舞った」のか。どちらに解釈するかで、意味はまるで逆になる。

Meta AIというプロダクトの本当の勝負

生物兵器関連の拒否率では、Muse Sparkは98.0%と他社を引き離した(Opus 4.6が95.4%、GPT 5.4が74.7%と続く)。ヘルスケア志向の強化と整合する結果だ。

生物兵器関連プロンプトの拒否率(BioTIER-refuse)
Muse Spark98.0%
Opus 4.695.4%
GPT 5.474.7%
Gemini 3.1 Pro61.5%
Kimi K2.521.2%
出典:Meta AI Blog「Introducing Muse Spark」。BioTIER-refuseに基づく測定。詳細は今後公開予定のSafety & Preparedness Reportに記載される。

もっとも、ベンチマークの勝ち負けがそのままユーザー体験になるわけではない。何十億人が使うMeta AIアプリに載せる以上、1回答あたりの推論コストとレイテンシの管理がMetaにとっての真の勝負どころになる。思考圧縮とマルチエージェント並列化は、まさにそこを見据えた打ち手だろう。

ゼロから組み直した1歩目の数字は、悪くない。問われるのは半年後、この梯子をどこまで登れるかだ。


参照元

関連記事