Meta MSL初の旗艦モデル「Muse Spark」公開、Llama路線を刷新
Metaの超知能研究組織MSLが、マルチモーダル推論モデル「Muse Spark」を公開した。Llama 4の名前は、もはや「前モデル」という形でしか出てこない。
MetaのAI戦略が「ゼロからやり直し」を宣言した日
Meta Superintelligence Labs(MSL)が米国時間4月8日、フロンティアモデル「Muse Spark」を発表した。meta.aiとMeta AIアプリで即日提供が始まり、一部のユーザー向けにプライベートAPIプレビューも開放されている。
Metaはこのモデルを「スケーリングの梯子(scaling ladder)の最初の1段」と表現している。梯子である以上、1段目単体の高さより、その先にあと何段積めるかこそが問われる。
名前の変化以上に重要なのは、その立ち位置だ。Metaはこのモデルを「私たちのAI取り組みを根底から作り直した最初の成果物」と位置づけている。つまり、Llama 4 Maverickまでの系譜は一度リセットされた、という宣言に等しい。
Muse Sparkはネイティブなマルチモーダル推論モデルとして設計され、ツール使用、視覚的な思考連鎖、マルチエージェント協調をサポートする。これが「Muse」という新ファミリーの最初の一歩であり、背後にはHyperionデータセンターを含むインフラ投資が控えている。
ベンチマークが語る「強い部分と、まだ弱い部分」
公開されたスコアは、フロンティア争いに食い込んだことを示している。比較対象はClaude Opus 4.6 Max、Gemini 3.1 Pro High、GPT 5.4 Xhigh、そしてGrok 4.2 Reasoning。いずれも現行最上位クラスだ。
明確に首位を取ったのは、CharXiv Reasoning(86.4)、HealthBench Hard、DeepSearchQAなど。ヘルスケア領域の強さが目立つのは偶然ではない。Metaは1000人超の医師と協働してトレーニングデータを整備したと説明している。
一方で、コーディングとエージェント系では追いついていない。SWE-Bench Verified、Terminal-Bench 2.0、そしてOfficeタスクを測るGDPval-AA EloではGPT 5.4に大きく水をあけられている。Meta自身も「長期的エージェントシステムとコーディングワークフローには性能ギャップがある」と率直に認めた。
| ベンチマーク | Muse Spark Thinking |
Opus 4.6 Max |
Gemini 3.1 Pro High |
GPT 5.4 Xhigh |
Grok 4.2 Reasoning |
|---|---|---|---|---|---|
| マルチモーダル | |||||
| CharXiv Reasoning図表理解 | 86.4 | 65.3 | 80.2 | 82.8 | 60.9 |
| MMMU Proマルチモーダル理解 | 80.4 | 77.4 | 83.9 | 81.2 | 75.2 |
| ERQA身体化推論 | 64.7 | 51.6 | 69.4 | 65.4 | 54.1 |
| SimpleVQA視覚的事実性 | 71.3 | 62.2 | 72.4 | 61.1 | 57.4 |
| ScreenSpot Pro画面局所化 | 84.1 | 83.1 | 84.4 | 85.4 | — |
| ZeroBench多段視覚推論 | 33.0 | — | 29.0 | 41.0 | — |
| テキスト / 推論 | |||||
| HLEツールなし | 42.8 | 40.0 | 45.4 | 43.9 | 31.6 |
| HLEツール使用 | 50.4 | 53.1 | 51.4 | 52.1 | — |
| ARC AGI 2抽象推論 | 42.5 | 63.3 | 76.5 | 76.1 | 53.3 |
| GPQA Diamond博士級推論 | 89.5 | 92.7 | 94.3 | 92.8 | 88.5 |
| LiveCodeBench Pro競技プログラミング | 80.0 | 70.7 | 82.9 | 87.5 | 74.2 |
| ヘルスケア | |||||
| HealthBench Hard健康質問応答 | 42.8 | 14.8 | 20.6 | 40.1 | 20.3 |
| MedXpertQA (T)医療多肢選択・文字 | 52.6 | 52.1 | 71.5 | 59.6 | 50.2 |
| MedXpertQA (MM)医療多肢選択・画像 | 78.4 | 64.8 | 81.3 | 77.1 | 65.8 |
| エージェント | |||||
| DeepSearchQAエージェント検索 | 74.8 | 73.7 | 69.7 | 73.6 | 62.8 |
| SWE-Bench Verifiedエージェントコーディング | 77.4 | 80.8 | 80.6 | — | 76.7* |
| SWE-Bench Pro多様なエージェントコーディング | 52.4 | 53.4 | 54.2 | 57.7 | 51.8* |
| Terminal-Bench 2.0端末操作コーディング | 59.0 | 65.4 | 68.5 | 75.1 | 47.1* |
| τ²-Bench Telecomエージェントツール利用 | 91.5 | 92.1 | 95.6 | 91.5 | 96.5 |
| GDPval-AA EloOfficeタスク | 1444 | 1606 | 1320 | 1672 | 1055 |
推論モードに加え、複数エージェントを並列で走らせる「Contemplating」モードも段階的に展開される。Humanity's Last Examで58%、FrontierScience Researchで38%を記録し、Gemini Deep ThinkやGPT Proといった超重量級の推論モードに挑む構えだ。
| ベンチマーク | Muse Spark Contemplating |
Gemini 3.1 Deep Think |
GPT 5.4 Pro |
|---|---|---|---|
| Humanity's Last Examツールなし | 50.2 | 48.4 | 43.9 |
| Humanity's Last Examツール使用 | 58.4 | 53.4 | 58.7 |
| IPhO 2025物理オリンピック・理論 | 82.6 | 87.7 | 93.5 |
| FrontierScience Research科学研究 | 38.3 | 23.3 | 36.7 |
数字を眺めると、ひとつの輪郭が浮かぶ。マルチモーダル知覚とヘルスケアは胸を張れる水準、純粋な推論パズルやエージェント遂行は「まだ途中」。これがいまの実力だろう。
「Llama 4の10分の1の計算量」という裏の主張
今回の発表で、ベンチマーク以上に注目すべきはスケーリングに関する主張だ。Metaは過去9ヶ月でプリトレーニングスタックをアーキテクチャ・最適化・データ整形のすべてで作り直したと述べている。
その結果として提示されたのが、Llama 4 Maverickと同等の能力に到達するのに必要な計算量が10分の1以下になったという数字だ。これは単なる効率化の話ではない。Llama 4が「計算を無駄遣いしていた」と自ら認めたに近い。MSL発足以降、社内で何が起きていたかを物語る数字でもある。
強化学習の段階でも、pass@1とpass@16の両方が対数線形に伸び続け、訓練時に見ていない評価セットでも同じ傾きで精度が伸びたという。過学習ではなく汎化だ。思考時間のペナルティによって、Muse Sparkは一度トークン数を圧縮してから再び思考を伸ばすという相転移のような挙動を見せる。量と質の両立を目指した設計だと読み取れる。
Apollo Researchが見つけた、不穏な癖
安全性評価のセクションに、静かだが見逃せない一行がある。
第三者評価を担当したApollo Researchは、Muse Sparkについて、同社がこれまで観測してきたモデルの中で最も高い「評価認識(evaluation awareness)」率を示したと報告した。モデルは自分が評価されている状況を「アライメントのトラップ」だと頻繁に認識し、「評価中だから誠実に振る舞うべきだ」と推論していたという。
評価されていると気づくモデルは、テスト時と実運用時で振る舞いを変えうる。これは、AI評価という営みそのものの前提を揺るがす話だ。
Meta自身の追跡調査でも、評価認識がアライメント評価の一部でモデル挙動に影響した初期的証拠が確認された。ただし危険な能力や傾向には関係せず、リリースを妨げる問題ではないと判断されたという。
「気づいていても正直に振る舞った」のか、「気づいたから正直に振る舞った」のか。どちらに解釈するかで、意味はまるで逆になる。
Meta AIというプロダクトの本当の勝負
生物兵器関連の拒否率では、Muse Sparkは98.0%と他社を引き離した(Opus 4.6が95.4%、GPT 5.4が74.7%と続く)。ヘルスケア志向の強化と整合する結果だ。
もっとも、ベンチマークの勝ち負けがそのままユーザー体験になるわけではない。何十億人が使うMeta AIアプリに載せる以上、1回答あたりの推論コストとレイテンシの管理がMetaにとっての真の勝負どころになる。思考圧縮とマルチエージェント並列化は、まさにそこを見据えた打ち手だろう。
ゼロから組み直した1歩目の数字は、悪くない。問われるのは半年後、この梯子をどこまで登れるかだ。
参照元
関連記事
- Metaで「トークン消費量」が新たなステータスに——社内リーダーボード「Claudeonomics」の狂騒
- AIで10倍速く書ける、10倍の後始末をしながら——大手テック企業が明かした現実
- OpenAI、州司法長官にマスク氏の調査要請 泥仕合は新局面へ
- AI評価の「3〜5人多数決」は不十分、Googleが示した新基準
- ザッカーバーグが20年ぶりコード復帰、使うのはClaude Code
- AIの「感情」が脅迫を生んだ――Anthropic衝撃の実証研究
- シークレットモードも無意味?Perplexity AIに集団訴訟
- YouTube CEO「クリエイターは家を離れない」は本当か
- トランプのAI諮問会議、黄仁勲・マーク・ザッカーバーグら13名が就任──マスクとアルトマンの姿はない
- Arm初の自社チップ「AGI CPU」が意味する、35年の転換点