AI活用 2026.05.22

Gemma 4のサイズ別徹底比較|E2B/E4B/26B MoE/31B Denseの選び方と性能

Gemma 4 4サイズ比較 E2B E4B 26B MoE 31B Dense

2026年4月、GoogleはGemma 4を Apache 2.0 ライセンスでリリースしました。スマートフォンで動くE2Bから、ワークステーション向けの31B Denseまで4サイズが揃い、同じ家系の重みで「端末・エッジ・ワークステーション・サーバー」を一気通貫でカバーできる構成になっています。

本記事では、E2B / E4B / 26B MoE / 31B Dense のベンチマーク数値、推奨ハードウェア、量子化との組み合わせ、用途別の選定基準を、ローカル運用を前提とした発展的視点で整理します。Gemma 4そのものの入門はGemma 4の使い方|無料でできること・Ollama導入手順、Ollamaセットアップ手順はGemma 4の使い方|Ollamaでローカル実行する手順で扱っているので、本記事はその先の「どのサイズを選ぶか」に絞ります。

Gemma 4の4サイズ構成

E2B(約2Bパラメータ)— モバイル/ブラウザ

最小サイズで、スマートフォン・ブラウザ・組込デバイス向けに設計されています。マルチモーダル(テキスト・画像)入力に対応し、超低リソースな環境でも動作します。常駐型のオンデバイスAI、IoT機器の自然言語インターフェース、Webブラウザ拡張機能といった用途で活躍します。32GBのRAMを持つPCでもfp16で動かす余裕があり、Q4量子化版なら一般的なスマートフォンで利用可能です。

E4B(約4Bパラメータ)— エッジ/軽量サーバー

エッジ環境を想定したミッドレンジで、RAMが16〜24GBのPCやMac、Raspberry Pi 5、ノートパソコンといった「軽量だが本格的」な構成で安定動作します。Ollamaコミュニティではツール呼び出し対応モデルとして広く使われており、E2Bより回答の安定性が高く、E4B Q8で実用的な精度が得られます。Gemma 4 E4Bは、社内のローカル業務AIアシスタントに最も現実的な選択肢の1つです。

26B MoE(3.8Bアクティブ)— コンシューマGPU

Mixture-of-Experts(MoE)アーキテクチャを採用し、合計パラメータは約26Bですが、推論時にアクティブになるのは約3.8Bと効率的です。コンシューマGPU(RTX 4090, RTX 5080など24GB前後のVRAM)で本格的な性能を引き出せます。同じ計算量で31B Dense並みの推論能力を出す場面もあり、コストパフォーマンスに優れた選択肢です。

31B Dense — ワークステーション/サーバー

密結合(Dense)の最上位モデル。すべてのパラメータが推論時に使われるため、複雑な推論・コーディング・エージェント動作で最も高い性能を発揮します。ワークステーション級のGPU(VRAM 40GB以上、A100/H100、複数枚のRTX 5090)で本領を発揮し、社内サーバーでの本番ローカルLLM運用の中核を担えるモデルです。

ベンチマーク性能の比較

Googleの公式発表によれば、Gemma 4の主要ベンチマーク数値は以下のとおりです。

主要指標(31B Dense / 26B MoE)

  • MMLU Pro:31B Dense → 85.2%
  • AIME 2026(数学推論):31B Dense → 89.2%、26B MoE → 88.3%(アクティブ3.8B)
  • LiveCodeBench v6(競技プログラミング):31B Dense → 80.0%、26B MoE → 77.1%
  • τ2-bench(エージェント的ツール利用):31B Dense → 86.4%
  • Arena AI:31B Dense → 第3位(公式発表時点)

これらの数値は、「31Bは大規模商用モデル400B〜600B級と肩を並べる」と評価される根拠になっています。26B MoEはアクティブ3.8Bという驚異的な効率で31B Denseに迫る水準を達成しており、コストと性能のバランスを取りたい場面で有力です。

E2B / E4Bの位置づけ

E2B・E4Bの数値はモデルサイズに対しては非常に優秀で、特に関数呼び出しの安定性・多言語対応・コンテキスト保持で前世代のGemma 3を大きく上回ります。ベンチマーク値そのものはサーバー級モデルに及びませんが、「ローカルで安定して動く小型モデル」の指標として実務上は十分な実用域に達しています。

推奨ハードウェアと量子化の組み合わせ

Gemma 4はOllama経由で簡単に呼び出せますが、サイズと量子化の組み合わせ次第で実際の動作要件は大きく変わります。以下は各サイズで現実的に動くハードウェア構成の目安です。

E2B

  • Q4_K_M(約1.5GB):スマートフォン、ノートPC、Raspberry Pi 5、ブラウザ内推論
  • fp16(約4GB):8GB以上のRAMを持つ一般PC
  • 用途:軽量チャットボット、オフライン翻訳、簡易要約、IoT機器の音声/テキストUI

E4B

  • Q4_K_M(約3GB):Mac mini (M1/M2/M3 16GB), 16GB RAMのノートPC
  • Q8_0(約4.5GB):16〜24GB RAMの社内PC、Mac Studio
  • fp16(約8GB):24GB以上のVRAMを持つGPU環境
  • 用途:社内ヘルプデスクAI、長文要約、メール返信ドラフト、簡易コード補完

26B MoE

  • Q4_K_M(約14GB):RTX 4090 / 5080(24GB VRAM)、Mac Studio M2 Ultra(64GB以上)
  • Q5/Q6(約17〜20GB):RTX 5090(32GB VRAM)、Mac Studio Ultra
  • 用途:高精度な社内ドキュメント解析、コード生成、エージェント動作、複雑な推論タスク

31B Dense

  • Q4_K_M(約17GB):RTX 4090 / 5090(24-32GB VRAM)、Mac Studio M3 Ultra(96GB以上)
  • Q8_0(約32GB):A100 40GB、RTX 5090複数枚
  • fp16(約62GB):A100 80GB、H100、複数GPU構成
  • 用途:社内サーバーでの本番ローカルLLM、複数ユーザー同時利用、最高品質を求める業務

用途別のサイズ選定フローチャート

Gemma 4のサイズ選定で迷ったときは、以下の問いに順番に答えると整理しやすくなります。

ステップ1:動かす場所はどこか?

  • スマホ・ブラウザ・組込機器 → E2B
  • ノートPC・Mac mini・社内PC → E4B
  • コンシューマGPU搭載デスクトップ → 26B MoE
  • ワークステーション・社内サーバー → 31B Dense

ステップ2:何人が同時に使うか?

1〜3人の少数利用ならE4B〜26B MoEで十分。10人以上が同時に使う想定なら31B Dense以上を選び、vLLM等の推論サーバーで並列処理を最適化することを検討します。

ステップ3:精度と速度のどちらを優先するか?

  • 速度重視(リアルタイム性):E4B Q4_K_M、26B MoE Q4_K_M
  • 精度重視(複雑な推論):26B MoE Q6/Q8、31B Dense Q4_K_M以上
  • バランス重視:26B MoE Q5_K_M がもっとも費用対効果が高い場面が多い

ステップ4:マルチモーダルが必要か?

Gemma 4は全サイズでマルチモーダル入力をサポートしますが、画像・動画・音声の解釈精度はサイズに依存します。テキストのみで十分ならE4Bで完結、画像理解が業務上重要なら26B MoE以上を推奨します。

業務シーン別の推奨構成

個人事業主・1〜5名規模の中小企業

Mac mini(M2/M3, 16〜24GB)または Windows PC + RTX 4060/4070 程度の構成で、Gemma 4 E4B Q4_K_M〜Q8_0を Ollamaで動かすのが現実的な出発点です。社内ヘルプデスク、メール下書き、議事録要約、簡易翻訳に十分対応できます。月数千円のクラウドAI契約を置き換える形で、データを社外に出さない運用が組めます。

20〜50名規模の中堅企業

Mac Studio M2/M3 Ultra(64GB〜)またはRTX 4090/5080搭載のサーバー26B MoE Q4_K_M〜Q5_K_M を中心に運用。複数ユーザー同時利用に対応し、社内ドキュメント検索(RAG構成)、コード補助、業務メール作成、契約書要約まで広く対応できます。E4Bの軽量モデルを補助として並走させる構成も有効です。

大規模・本格運用

A100/H100または複数枚のRTX 5090を備えたサーバーで 31B Dense Q8 以上を運用。vLLMやTensorRT-LLMによる推論最適化、複数ユーザー同時アクセスのバッチ処理、エージェント連携まで本格的に組み込めます。社内独自データでのファインチューニングや、RAGバックエンドとの統合も視野に入ります。

26B MoEと31B Denseの実務的な選び分け

26B MoEと31B Denseは性能差が小さく、選定で迷うポイントです。実務的な切り分けは以下です。

  • 26B MoEを選ぶ理由:VRAM消費が控えめ、推論速度が速い、コンシューマGPUで動く、コスト効率が良い
  • 31B Denseを選ぶ理由:複雑な推論で安定性が高い、エージェント動作で予期せぬ振る舞いが少ない、ファインチューニングがしやすい

26B MoEはMoEアーキテクチャの特性上、特定のトークンや文脈で「エキスパート選択のバラつき」が発生することがあります。本番運用で「答えが安定しない」と感じたら、31B Denseに切り替える価値があります。

ライセンスと商用利用の注意

Gemma 4はApache 2.0ライセンスで提供されます。これは商用利用・改変・再配布が自由に行える非常に寛容なライセンスで、MAU(月間アクティブユーザー)の制限もありません。中小企業がローカル運用する上で、ライセンス面のハードルは事実上ありません。

ただし、Gemma 4を使ったサービスや派生モデルを再配布する場合は、Apache 2.0の規定(著作権表示・ライセンス表記の維持、改変箇所の明示など)に従う必要があります。商用OSSライセンスの基礎を社内で共有しておくと、運用がスムーズになります。

Gemma 4のサイズ選定でよくある失敗

失敗1:いきなり31B Denseに飛びつく

「最大モデルが最高」と考えて31B Denseを選ぶと、推論速度が遅く、VRAM不足で動かない、運用コストが高すぎる、といった問題が出やすくなります。まずE4Bで業務フィット感を検証してから上位モデルに進むのが堅実です。

失敗2:量子化レベルを軽視する

Q4_K_Mとfp16では、推論速度・VRAM消費・精度がすべて異なります。同じ31Bでも、Q4ならRTX 4090で動くが、fp16ならA100が必要です。サイズだけでなく量子化の組み合わせで「動く・動かない」が決まることを意識します。

失敗3:マルチモーダルを無条件に有効化する

マルチモーダル入力(画像・動画・音声)は便利ですが、VRAM消費とレイテンシが増えます。テキストのみで十分な業務にはテキスト用設定で運用し、必要なときだけマルチモーダル対応エンドポイントに切り替える設計が効率的です。

株式会社Sei San Seiの関連サービス

株式会社Sei San Seiは、ローカルLLMを活用した業務AI設計をご支援しています。

まとめ:「動かす場所×業務量×精度要求」で選ぶ

本記事のポイントを整理します。

  1. Gemma 4は E2B / E4B / 26B MoE / 31B Dense の4サイズで、Apache 2.0、256Kコンテキスト、マルチモーダル対応
  2. 選定の軸は「動かす場所・同時利用人数・精度要求・マルチモーダル要否」の4点
  3. 中小企業の初動は E4B Q4_K_M〜Q8_0、中堅以上は 26B MoE、大規模本番は 31B Dense
  4. サイズだけでなく 量子化レベル(Q4/Q5/Q6/Q8/fp16) の組み合わせで実運用が決まる
  5. 26B MoE は効率が抜群だが、安定性重視なら 31B Dense を選ぶのが筋

本記事は「モデル選定」の発展ガイドです。実際にファインチューニングして社内仕様にする手順はGemma 4をLoRAでファインチューニング|Ollama運用までの実装パイプライン、Ollamaから外部ツールを呼び出してエージェント化する手順はOllama×MCPでローカルAIエージェント構築|機密データを外に出さない業務自動化で、それぞれ実装重視で扱っています。

「自社にあったローカルLLM構成を相談したい」「Gemma 4 × Ollama を業務システムに組み込みたい」――そんな課題をお持ちの経営者の方は、お気軽にお問い合わせください。福岡オフィスから、ローカルAI運用の設計をご提案します。

ブログ一覧へ戻る

最新記事

まずはお気軽にご相談ください

無料相談・資料請求を受け付けております

お問い合わせはこちら