Gemma 4 登場——自前ハードで動くオープンモデルが、ここまで来た
Geminiと同じ研究基盤から生まれた最新オープンモデル「Gemma 4」が、Apache 2.0ライセンスで公開された。スマホからワークステーションまで、今日から誰でも使える。
Geminiと同じ研究基盤から生まれた最新オープンモデル「Gemma 4」が、Apache 2.0ライセンスで公開された。スマホからワークステーションまで、今日から誰でも使える。
「パラメータ効率」で世界3位に割り込んだ
オープンモデルの性能競争が続くなか、GoogleDeepMindが2026年4月2日に投入したGemma 4は、その地図をあっさり塗り替えた。
31BのDenseモデルはArena AI テキストリーダーボードでオープンモデル世界3位(推定スコア1452)、26B MoEは6位(1441)。注目すべきは、この26BモデルがMixture-of-Experts構造により推論時に使う実際のパラメータが約3.8Bにすぎない点だ。Googleは「自分たちの20倍の規模のモデルに競り勝った」と表現している。
実際の数字を見ると、その言葉が誇張でないことがわかる。数学オリンピック系ベンチマークの「AIME 2026」で31Bモデルのスコアは89.2%。前世代のGemma 3(27B)が20.8%だったことを考えると、同じオープンモデルの系譜とは思えない跳躍だ。コーディング評価の「Codeforces ELO」も前世代の110から2150へと激増している。
4サイズ展開——スマホからH100まで
Gemma 4は用途別に4つのモデルで構成される。
| E2B | E4B | 26B A4B | 31B Dense | |
|---|---|---|---|---|
| 用途 | スマホ・IoT | スマホ・ラップトップ | コンシューマーGPU | ワークステーション |
| アーキテクチャ | Dense (PLE) | Dense (PLE) | MoE | Dense |
| 有効パラメータ | 2B | 4B | 推論時 3.8B (総計 25.2B) |
31B |
| コンテキスト | 128K | 128K | 256K | 256K |
| マルチモーダル | テキスト 画像・動画 音声 |
テキスト 画像・動画 音声 |
テキスト 画像・動画 |
テキスト 画像・動画 |
| 推奨RAM | 〜6GB | 〜6GB | 〜18GB | 〜20GB |
| AIME 2026 | 37.5% | 42.5% | 88.3% | 89.2% |
| LiveCodeBench v6 | 44.0% | 52.0% | 77.1% | 80.0% |
| Arena AI スコア | — | — | 1441 (6位) |
1452 (3位) |
| ライセンス | Apache 2.0 | Apache 2.0 | Apache 2.0 | Apache 2.0 |
※ RAM目安は4-bit量子化時。推奨RAM(E2B/E4B)はUnsloth公式値(5GB〜)に基づく。ベンチマークはThinkingモード有効時の公式発表値。Arena AIスコアはオープンモデル部門での順位(2026年4月2日時点)。「—」はエッジモデルで非公開。
エッジ向けのE2BとE4Bは、スマートフォンやRaspberry Pi、NVIDIA Jetson Orin Nanoのようなデバイスでオフライン動作することを前提に設計されている。コンテキストウィンドウは12万8,000トークン。テキスト・画像に加えて音声入力にも対応し、約6GBのRAMがあれば動く。
E2B / E4Bの「Effective」はパラメータ数の呼び方で、実際の総パラメータはE2Bが51億、E4Bがそれ以上ある。「Effective」が示すのは推論時に有効活用される規模感を指す。
ワークステーション向けの26B MoEと31B Denseは、コンテキストウィンドウ25万6,000トークンに対応。量子化版であれば一般向けのコンシューマーGPUでもローカル動作が可能で、非量子化のbfloat16でもH100 1枚(80GB)に収まる設計になっている。
Googleはクアルコムやメディアテックと共同でエッジ最適化を進めており、Android向けにはAICore Developer PreviewでGemma 4の利用が始まっている。
ライセンスが変わった、それだけで話が変わる
Gemma 4最大の変化は、数字ではなくライセンスかもしれない。
これまでのGemmaシリーズはGoogleが独自の利用規約を設けており、商用展開を検討する企業はいちいち法務確認が必要だった。「条項の解釈が曖昧」「再配布の扱いがグレー」——そういった理由でQwenやMistralを選ぶ開発者も多かった現実がある。
今回のApache 2.0への切り替えは、そのすべての手間を消し去る。Qwen、Mistral、Arceeと同じ土俵に立った、という宣言だ。
Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can be fine-tuned for your specific task: 31B dense for great raw performance, 26B MoE for low latency, and effective 2B & 4B for edge device use - happy building! pic.twitter.com/Sjbe3ph8xr
— Demis Hassabis (@demishassabis) April 2, 2026
デミス・ハサビスCEOは「それぞれのサイズでオープンモデル世界最高の仕上がり」と述べた。自信の裏にあるのは、ライセンスと性能、両方が揃ってはじめて「本当の意味でオープン」だという認識だろう。
Apache 2.0は商用・私的利用・改変・再配布・サブライセンスのすべてを無制限に許可する。変更箇所の明示と著作権表示の保持だけが条件だ。
Gemini 3の「おこぼれ」ではない——アーキテクチャの実態
ライセンスと性能が揃っても、内部の設計が伴わなければ長続きしない。
公式発表には「Gemini 3と同じ研究基盤から構築」という一文がある。これは謙遜でも誇張でもなく、設計哲学の共有を意味する。
アーキテクチャを見ると、ローカルなスライディングウィンドウ注意と全体的なグローバル注意を交互に組み合わせる「ハイブリッドアテンション機構」を採用している。小型モデルの速度・省メモリ性と、長いコンテキストを扱うために必要な深い文脈理解の両立を狙った構造だ。また、小型モデルにはPLE(Per-Layer Embeddings)と呼ばれる技術が使われており、各トークンに対してレイヤーごとの専用ベクトルを生成することで、標準的なトランスフォーマーより表現力を引き上げている。これにより、E2BやE4Bのような小型モデルでも前世代の27Bモデルを超えるベンチマーク結果が出せる土台が作られている。
Hugging FaceはTransformers、TRL、Transformers.js、Candleを含むday-oneサポートを宣言。Ollama、vLLM、llama.cpp、LM Studio、Unslothなど主要な推論エンジンも即日対応している。使いたいツールを選ぶだけで動く環境が最初から整っている点は、前世代のGemmaでは得られなかった体験だ。
Hugging Faceはこの点を強調している。「出荷直後でこれほどファインチューニング例を見つけるのに苦労したモデルは初めてだ。素のままで優秀すぎるから」。
「重さ20分の1で同等」の先に何があるか
140以上の言語に対応し、マルチモーダル(テキスト・画像・映像・音声)を標準サポートし、Apache 2.0で誰でも使える。
スペックだけを並べれば、Gemma 4はあらゆる条件を満たす優等生に見える。だが本当の問いは別にある。「これほどの能力が手元のハードで動く時代に、AI開発の主戦場はどこへ移るのか」。
クラウドAPIに頼らず、データを外に出さず、自前インフラで回す——そういう選択肢が現実的になるほど、AIの民主化は具体的な形を帯びてくる。GoogleがApacheライセンスに踏み切った背景には、そのトレンドへの明確な賭けがある。
Qwen 3.5やLlama 4もひしめくオープンモデル市場で、Gemma 4がどこまでシェアを取りに行くのか。数字ではなく使われ方の広がりが、6ヶ月後の答えを出すだろう。
参照元
他参照