Gemma 4 登場——自前ハードで動くオープンモデルが、ここまで来た

Geminiと同じ研究基盤から生まれた最新オープンモデル「Gemma 4」が、Apache 2.0ライセンスで公開された。スマホからワークステーションまで、今日から誰でも使える。

情報の灯台

2026年4月3日

Google

「パラメータ効率」で世界3位に割り込んだ

オープンモデルの性能競争が続くなか、GoogleDeepMindが2026年4月2日に投入したGemma 4は、その地図をあっさり塗り替えた。

31BのDenseモデルはArena AI テキストリーダーボードでオープンモデル世界3位（推定スコア1452）、26B MoEは6位（1441）。注目すべきは、この26BモデルがMixture-of-Experts構造により推論時に使う実際のパラメータが約3.8Bにすぎない点だ。Googleは「自分たちの20倍の規模のモデルに競り勝った」と表現している。

実際の数字を見ると、その言葉が誇張でないことがわかる。数学オリンピック系ベンチマークの「AIME 2026」で31Bモデルのスコアは89.2%。前世代のGemma 3（27B）が20.8%だったことを考えると、同じオープンモデルの系譜とは思えない跳躍だ。コーディング評価の「Codeforces ELO」も前世代の110から2150へと激増している。

4サイズ展開——スマホからH100まで

Gemma 4は用途別に4つのモデルで構成される。

	E2B	E4B	26B A4B	31B Dense
用途	スマホ・IoT	スマホ・ラップトップ	コンシューマーGPU	ワークステーション
アーキテクチャ	Dense (PLE)	Dense (PLE)	MoE	Dense
有効パラメータ	2B	4B	推論時 3.8B (総計 25.2B)	31B
コンテキスト	128K	128K	256K	256K
マルチモーダル	テキスト画像・動画音声	テキスト画像・動画音声	テキスト画像・動画	テキスト画像・動画
推奨RAM	〜6GB	〜6GB	〜18GB	〜20GB
AIME 2026	37.5%	42.5%	88.3%	89.2%
LiveCodeBench v6	44.0%	52.0%	77.1%	80.0%
Arena AI スコア	—	—	1441 (6位)	1452 (3位)
ライセンス	Apache 2.0	Apache 2.0	Apache 2.0	Apache 2.0

※ RAM目安は4-bit量子化時。推奨RAM（E2B/E4B）はUnsloth公式値（5GB〜）に基づく。ベンチマークはThinkingモード有効時の公式発表値。Arena AIスコアはオープンモデル部門での順位（2026年4月2日時点）。「—」はエッジモデルで非公開。

エッジ向けのE2BとE4Bは、スマートフォンやRaspberry Pi、NVIDIA Jetson Orin Nanoのようなデバイスでオフライン動作することを前提に設計されている。コンテキストウィンドウは12万8,000トークン。テキスト・画像に加えて音声入力にも対応し、約6GBのRAMがあれば動く。

E2B / E4Bの「Effective」はパラメータ数の呼び方で、実際の総パラメータはE2Bが51億、E4Bがそれ以上ある。「Effective」が示すのは推論時に有効活用される規模感を指す。

ワークステーション向けの26B MoEと31B Denseは、コンテキストウィンドウ25万6,000トークンに対応。量子化版であれば一般向けのコンシューマーGPUでもローカル動作が可能で、非量子化のbfloat16でもH100 1枚（80GB）に収まる設計になっている。

Googleはクアルコムやメディアテックと共同でエッジ最適化を進めており、Android向けにはAICore Developer PreviewでGemma 4の利用が始まっている。

ライセンスが変わった、それだけで話が変わる

Gemma 4最大の変化は、数字ではなくライセンスかもしれない。

これまでのGemmaシリーズはGoogleが独自の利用規約を設けており、商用展開を検討する企業はいちいち法務確認が必要だった。「条項の解釈が曖昧」「再配布の扱いがグレー」——そういった理由でQwenやMistralを選ぶ開発者も多かった現実がある。

今回のApache 2.0への切り替えは、そのすべての手間を消し去る。Qwen、Mistral、Arceeと同じ土俵に立った、という宣言だ。

Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can be fine-tuned for your specific task: 31B dense for great raw performance, 26B MoE for low latency, and effective 2B & 4B for edge device use - happy building! pic.twitter.com/Sjbe3ph8xr
— Demis Hassabis (@demishassabis) April 2, 2026

デミス・ハサビスCEOは「それぞれのサイズでオープンモデル世界最高の仕上がり」と述べた。自信の裏にあるのは、ライセンスと性能、両方が揃ってはじめて「本当の意味でオープン」だという認識だろう。

Apache 2.0は商用・私的利用・改変・再配布・サブライセンスのすべてを無制限に許可する。変更箇所の明示と著作権表示の保持だけが条件だ。

Gemini 3の「おこぼれ」ではない——アーキテクチャの実態

ライセンスと性能が揃っても、内部の設計が伴わなければ長続きしない。

公式発表には「Gemini 3と同じ研究基盤から構築」という一文がある。これは謙遜でも誇張でもなく、設計哲学の共有を意味する。

アーキテクチャを見ると、ローカルなスライディングウィンドウ注意と全体的なグローバル注意を交互に組み合わせる「ハイブリッドアテンション機構」を採用している。小型モデルの速度・省メモリ性と、長いコンテキストを扱うために必要な深い文脈理解の両立を狙った構造だ。また、小型モデルにはPLE（Per-Layer Embeddings）と呼ばれる技術が使われており、各トークンに対してレイヤーごとの専用ベクトルを生成することで、標準的なトランスフォーマーより表現力を引き上げている。これにより、E2BやE4Bのような小型モデルでも前世代の27Bモデルを超えるベンチマーク結果が出せる土台が作られている。

Hugging FaceはTransformers、TRL、Transformers.js、Candleを含むday-oneサポートを宣言。Ollama、vLLM、llama.cpp、LM Studio、Unslothなど主要な推論エンジンも即日対応している。使いたいツールを選ぶだけで動く環境が最初から整っている点は、前世代のGemmaでは得られなかった体験だ。