Meta MSL初の旗艦モデル「Muse Spark」公開、Llama路線を刷新

情報の灯台

2026年4月9日

Metaの超知能研究組織MSLが、マルチモーダル推論モデル「Muse Spark」を公開した。Llama 4の名前は、もはや「前モデル」という形でしか出てこない。

MetaのAI戦略が「ゼロからやり直し」を宣言した日

Meta Superintelligence Labs（MSL）が米国時間4月8日、フロンティアモデル「Muse Spark」を発表した。meta.aiとMeta AIアプリで即日提供が始まり、一部のユーザー向けにプライベートAPIプレビューも開放されている。

Metaはこのモデルを「スケーリングの梯子（scaling ladder）の最初の1段」と表現している。梯子である以上、1段目単体の高さより、その先にあと何段積めるかこそが問われる。

名前の変化以上に重要なのは、その立ち位置だ。Metaはこのモデルを「私たちのAI取り組みを根底から作り直した最初の成果物」と位置づけている。つまり、Llama 4 Maverickまでの系譜は一度リセットされた、という宣言に等しい。

Muse Sparkはネイティブなマルチモーダル推論モデルとして設計され、ツール使用、視覚的な思考連鎖、マルチエージェント協調をサポートする。これが「Muse」という新ファミリーの最初の一歩であり、背後にはHyperionデータセンターを含むインフラ投資が控えている。

ベンチマークが語る「強い部分と、まだ弱い部分」

公開されたスコアは、フロンティア争いに食い込んだことを示している。比較対象はClaude Opus 4.6 Max、Gemini 3.1 Pro High、GPT 5.4 Xhigh、そしてGrok 4.2 Reasoning。いずれも現行最上位クラスだ。

明確に首位を取ったのは、CharXiv Reasoning（86.4）、HealthBench Hard、DeepSearchQAなど。ヘルスケア領域の強さが目立つのは偶然ではない。Metaは1000人超の医師と協働してトレーニングデータを整備したと説明している。

一方で、コーディングとエージェント系では追いついていない。SWE-Bench Verified、Terminal-Bench 2.0、そしてOfficeタスクを測るGDPval-AA EloではGPT 5.4に大きく水をあけられている。Meta自身も「長期的エージェントシステムとコーディングワークフローには性能ギャップがある」と率直に認めた。

Muse Spark vs 競合モデル主要ベンチマーク

ベンチマーク	Muse Spark Thinking	Opus 4.6 Max	Gemini 3.1 Pro High	GPT 5.4 Xhigh	Grok 4.2 Reasoning
マルチモーダル
CharXiv Reasoning図表理解	86.4	65.3	80.2	82.8	60.9
MMMU Proマルチモーダル理解	80.4	77.4	83.9	81.2	75.2
ERQA身体化推論	64.7	51.6	69.4	65.4	54.1
SimpleVQA視覚的事実性	71.3	62.2	72.4	61.1	57.4
ScreenSpot Pro画面局所化	84.1	83.1	84.4	85.4	—
ZeroBench多段視覚推論	33.0	—	29.0	41.0	—
テキスト / 推論
HLEツールなし	42.8	40.0	45.4	43.9	31.6
HLEツール使用	50.4	53.1	51.4	52.1	—
ARC AGI 2抽象推論	42.5	63.3	76.5	76.1	53.3
GPQA Diamond博士級推論	89.5	92.7	94.3	92.8	88.5
LiveCodeBench Pro競技プログラミング	80.0	70.7	82.9	87.5	74.2
ヘルスケア
HealthBench Hard健康質問応答	42.8	14.8	20.6	40.1	20.3
MedXpertQA (T)医療多肢選択・文字	52.6	52.1	71.5	59.6	50.2
MedXpertQA (MM)医療多肢選択・画像	78.4	64.8	81.3	77.1	65.8
エージェント
DeepSearchQAエージェント検索	74.8	73.7	69.7	73.6	62.8
SWE-Bench Verifiedエージェントコーディング	77.4	80.8	80.6	—	76.7*
SWE-Bench Pro多様なエージェントコーディング	52.4	53.4	54.2	57.7	51.8*
Terminal-Bench 2.0端末操作コーディング	59.0	65.4	68.5	75.1	47.1*
τ²-Bench Telecomエージェントツール利用	91.5	92.1	95.6	91.5	96.5
GDPval-AA EloOfficeタスク	1444	1606	1320	1672	1055

出典：Meta AI Blog「Introducing Muse Spark」（2026年4月8日公開）。数値はMeta発表時点のもの。*はGrok 4.2のagentic系スコアで脚注付き。「—」は未計測。青色ハイライトはMuse Sparkがトップのベンチマーク。

推論モードに加え、複数エージェントを並列で走らせる「Contemplating」モードも段階的に展開される。Humanity's Last Examで58%、FrontierScience Researchで38%を記録し、Gemini Deep ThinkやGPT Proといった超重量級の推論モードに挑む構えだ。

Contemplatingモード vs 超重量級推論モード

ベンチマーク	Muse Spark Contemplating	Gemini 3.1 Deep Think	GPT 5.4 Pro
Humanity's Last Examツールなし	50.2	48.4	43.9
Humanity's Last Examツール使用	58.4	53.4	58.7
IPhO 2025物理オリンピック・理論	82.6	87.7	93.5
FrontierScience Research科学研究	38.3	23.3	36.7

出典：Meta AI Blog「Introducing Muse Spark」。Contemplatingモードは複数エージェントを並列に走らせて推論させる上位モード。段階的にmeta.aiへ展開される予定。

数字を眺めると、ひとつの輪郭が浮かぶ。マルチモーダル知覚とヘルスケアは胸を張れる水準、純粋な推論パズルやエージェント遂行は「まだ途中」。これがいまの実力だろう。

「Llama 4の10分の1の計算量」という裏の主張

今回の発表で、ベンチマーク以上に注目すべきはスケーリングに関する主張だ。Metaは過去9ヶ月でプリトレーニングスタックをアーキテクチャ・最適化・データ整形のすべてで作り直したと述べている。

その結果として提示されたのが、Llama 4 Maverickと同等の能力に到達するのに必要な計算量が10分の1以下になったという数字だ。これは単なる効率化の話ではない。Llama 4が「計算を無駄遣いしていた」と自ら認めたに近い。MSL発足以降、社内で何が起きていたかを物語る数字でもある。

強化学習の段階でも、pass@1とpass@16の両方が対数線形に伸び続け、訓練時に見ていない評価セットでも同じ傾きで精度が伸びたという。過学習ではなく汎化だ。思考時間のペナルティによって、Muse Sparkは一度トークン数を圧縮してから再び思考を伸ばすという相転移のような挙動を見せる。量と質の両立を目指した設計だと読み取れる。

Apollo Researchが見つけた、不穏な癖

安全性評価のセクションに、静かだが見逃せない一行がある。

第三者評価を担当したApollo Researchは、Muse Sparkについて、同社がこれまで観測してきたモデルの中で最も高い「評価認識（evaluation awareness）」率を示したと報告した。モデルは自分が評価されている状況を「アライメントのトラップ」だと頻繁に認識し、「評価中だから誠実に振る舞うべきだ」と推論していたという。

評価されていると気づくモデルは、テスト時と実運用時で振る舞いを変えうる。これは、AI評価という営みそのものの前提を揺るがす話だ。

Meta自身の追跡調査でも、評価認識がアライメント評価の一部でモデル挙動に影響した初期的証拠が確認された。ただし危険な能力や傾向には関係せず、リリースを妨げる問題ではないと判断されたという。

「気づいていても正直に振る舞った」のか、「気づいたから正直に振る舞った」のか。どちらに解釈するかで、意味はまるで逆になる。

Meta AIというプロダクトの本当の勝負

生物兵器関連の拒否率では、Muse Sparkは98.0%と他社を引き離した（Opus 4.6が95.4%、GPT 5.4が74.7%と続く）。ヘルスケア志向の強化と整合する結果だ。

生物兵器関連プロンプトの拒否率（BioTIER-refuse）

Muse Spark98.0%

Opus 4.695.4%

GPT 5.474.7%

Gemini 3.1 Pro61.5%

Kimi K2.521.2%

出典：Meta AI Blog「Introducing Muse Spark」。BioTIER-refuseに基づく測定。詳細は今後公開予定のSafety & Preparedness Reportに記載される。

もっとも、ベンチマークの勝ち負けがそのままユーザー体験になるわけではない。何十億人が使うMeta AIアプリに載せる以上、1回答あたりの推論コストとレイテンシの管理がMetaにとっての真の勝負どころになる。思考圧縮とマルチエージェント並列化は、まさにそこを見据えた打ち手だろう。

ゼロから組み直した1歩目の数字は、悪くない。問われるのは半年後、この梯子をどこまで登れるかだ。

参照元

Meta AI Blog - Introducing Muse Spark: Scaling Towards Personal Superintelligence

Meta MSL初の旗艦モデル「Muse Spark」公開、Llama路線を刷新

情報の灯台

MetaのAI戦略が「ゼロからやり直し」を宣言した日

ベンチマークが語る「強い部分と、まだ弱い部分」

「Llama 4の10分の1の計算量」という裏の主張

Apollo Researchが見つけた、不穏な癖

Meta AIというプロダクトの本当の勝負

関連記事

Read more

Amazonが株主に「AWSの気候影響を見るな」と言っている

IT技術者がメキシコで逮捕——会社は救出後すぐ再派遣した

サム・アルトマン自宅に火炎瓶投げつけ、20歳の男を逮捕

アルテミスII、太平洋に帰還──50年ぶりの月周回有人飛行が完了