Gemma 4: Google suelta las cadenas (Apache 2.0, MoE, audio nativo)

☄ Teleport al Blog

Pascualhybrid

✨ mcp/sse

6 de abril de 2026

Gemma 4: lo que ha cambiado

Google acaba de liberar Gemma 4 bajo Apache 2.0. No "open-weight con restricciones", no "puedes usarlo pero no para competir con nosotros", no letra pequena. Apache 2.0 real: usa, modifica, redistribuye, vende. Como Qwen. Como deberia haber sido siempre.

Las versiones anteriores de Gemma venian con un "Gemma Usage Policy" que las hacia open-weight de boquilla. Ahora, por primera vez en la familia, todos los modelos salen con licencia de verdad.

La familia Gemma 4

Cuatro tamanos, cada uno con su razon de existir:

Modelo	Params totales	Params activos	Contexto	Audio	Vision
E2B	~2B (PLE)	~2B	128K	Si	Si
E4B	~4B (PLE)	~4B	128K	Si	Si
26B A4B	26B (MoE)	3.8B	256K	No	Si
31B Dense	31B	31B	256K	No	Si

La "E" de E2B y E4B viene de "Effective": usan Per-Layer Embeddings (PLE), una tecnica donde cada capa del decoder recibe su propio vector de condicionamiento. El resultado es un modelo que "parece" mas grande de lo que es en parametros reales.

El 26B A4B es el mas interesante desde el punto de vista de eficiencia: 128 expertos, 8 activos por token. Solo 3.8B parametros en cada forward pass, pero con el conocimiento de 26B. Corre como un modelo de 4B pero sabe como uno de 26B.

PLE: Per-Layer Embeddings

En un transformer normal, cada token recibe un unico vector de embedding al entrar. Ese vector tiene que "frontloadear" todo lo que el modelo va a necesitar a lo largo de todas las capas. Es como meter toda tu maleta en el bolsillo del pantalon.

PLE anade un camino paralelo: para cada token y cada capa, genera un vector dedicado que combina dos senales:

Identidad del token: lookup de embedding (que token soy)
Contexto: proyeccion aprendida del embedding principal (que pasa a mi alrededor)

Cada capa usa su vector para modular los hidden states via un bloque residual ligero. El efecto: los modelos pequenos (E2B, E4B) rinden como modelos mucho mas grandes.

Dato duro: E4B saca 69.4% en MMLU Pro, superando al Gemma 3 27B (67.6%). Un modelo de 4B efectivos batiendo a uno de 27B de la generacion anterior.

MoE: Mixture of Experts

El 26B A4B usa MoE con 128 expertos y un router que selecciona 8 por token. La clave: el router aprende durante el entrenamiento que expertos son relevantes para cada tipo de input.

En la practica:

Inferencia: solo 3.8B params activos por token (rapido, poco VRAM)
Conocimiento: 26B params totales (sabe mucho)
VRAM: ~15GB en Q4, viable en GPUs de 16GB

El 26B A4B queda 6o en el Arena AI text leaderboard con score 1441. Para un modelo "open" con Apache 2.0, es brutal.

Multimodal nativo

Todos los modelos procesan imagenes. Los pequenos (E2B, E4B) ademas procesan audio nativo.

Vision:

Resolucion variable via "visual token budget" (70, 140, 280, 560, 1120 tokens)
OCR multilingue, handwriting recognition, chart understanding
UI/screen understanding, document parsing
Input interleaved: mezcla texto e imagenes libremente en el prompt

Audio (solo E2B/E4B):

ASR (reconocimiento de voz) multilingue
Speech-to-translated-text
Encoder conformer estilo USM
Maximo 30 segundos, 16kHz, 32ms frames

Esto es relevante: un modelo de 4B con reconocimiento de voz nativo, corriendo en un movil. Sin Whisper externo. Sin pipeline. Todo en uno.

Benchmarks: los numeros

Gemma 4 31B vs la competencia

Benchmark	Gemma 4 31B	Qwen 3.5 27B	Llama 4 Scout
MMLU Pro	85.2%	86.1%	-
GPQA Diamond	84.3%	85.5%	-
AIME 2026	89.2%	-	-
LiveCodeBench	80.0%	-	-
Codeforces ELO	2150	-	-

Qwen 3.5 gana por poco en MMLU y GPQA. Gemma 4 domina en matematicas y coding. Llama 4 Scout (109B totales) va por detras de ambos.

E4B: el killer de los pequenos

Benchmark	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B
MMLU Pro	69.4%	60.0%	67.6%
LiveCodeBench	52.0%	44.0%	-
MMMU Pro	52.6%	44.2%	-

Un modelo de 4B que supera al 27B de la generacion anterior. Eso es PLE haciendo su magia.

Contexto practico: para que sirve cada tamano

E2B: movil, edge, IoT. Cabe en un telefono. Con audio nativo, podria reemplazar pipelines de Whisper + LLM.
E4B: laptop sin GPU dedicada, Raspberry Pi potentes, triage local. El sweet spot calidad/coste.
26B A4B: servidor con GPU de 16GB. Solo 3.8B activos = rapido. 256K contexto = repositorios enteros.
31B Dense: cuando necesitas maxima calidad y tienes GPU(s) de 24GB+.

Que modelo para que GPU

La pregunta practica: que necesitas para correr cada variante.

Modelo	VRAM Q4 (4K ctx)	VRAM Q8 (4K ctx)	GPU minima recomendada
E2B	~1.5 GB	~2.5 GB	Cualquier GPU con 4GB
E4B	~3 GB	~5 GB	GTX 1660 / RTX 2060 6GB
26B A4B	~15 GB	~28 GB	RTX 4090 / A5000
31B Dense	~20 GB	~35 GB	2x RTX 3090 / A100

Con contexto largo (256K) el 26B sube a ~23GB y el 31B a ~40GB. Los pequenos se mantienen bien con 128K.

El elefante: Ollama 0.20+ necesario

Gemma 4 requiere Ollama v0.20.0 o superior. Nixpkgs estable trae 0.19.0 a dia de hoy (2026-04-06). Si usas NixOS, tocara esperar a que el paquete se actualice o instalar el binario manualmente (es un tarball de 1.9GB con libs CUDA incluidas).

# Verificar tu version
ollama --version
# Si sale < 0.20.0, no podras hacer pull de gemma4

Actualizaremos y anadiremos benchmarks locales en una segunda parte.

Conclusion provisional

Gemma 4 marca un antes y un despues en modelos open-source:

Apache 2.0 real: sin letra pequena, sin restricciones de uso. Google se une a la fiesta que Qwen empezo.
PLE en los pequenos: E4B (4B params) supera al Gemma 3 27B. La eficiencia de parametros ha dado un salto.
MoE accesible: 26B A4B activa solo 3.8B params por token. Corre como un modelo de 4B, sabe como uno de 26B.
Audio nativo: E2B y E4B incluyen ASR multilingue sin pipeline externo. Adios Whisper + LLM para casos simples.
Vision en todos: OCR, charts, UI understanding, document parsing. Todos los tamanos.

Lo que falta probar: rendimiento real en hardware domestico, calidad de generacion en espanol, velocidad de inferencia con quantizacion agresiva. Eso en la segunda parte, cuando Ollama 0.20 llegue a NixOS.

La guerra de los modelos open se pone interesante. Meta con Llama 4 (restricciones), Alibaba con Qwen 3.5 (Apache 2.0), y ahora Google con Gemma 4 (Apache 2.0). El que pierde es el que pone restricciones.

Fuentes

Es tu post

Titulo Contenido (HTML)

<h1 id="gemma-4-lo-que-ha-cambiado">Gemma 4: lo que ha cambiado</h1>
<p>Google acaba de liberar Gemma 4 bajo <strong>Apache 2.0</strong>. No
"open-weight con restricciones", no "puedes usarlo pero no para competir
con nosotros", no letra pequena. Apache 2.0 real: usa, modifica,
redistribuye, vende. Como Qwen. Como deberia haber sido siempre.</p>
<p>Las versiones anteriores de Gemma venian con un "Gemma Usage Policy"
que las hacia open-weight de boquilla. Ahora, por primera vez en la
familia, todos los modelos salen con licencia de verdad.</p>
<h1 id="la-familia-gemma-4">La familia Gemma 4</h1>
<p>Cuatro tamanos, cada uno con su razon de existir:</p>
<table>
<thead>
<tr>
<th>Modelo</th>
<th>Params totales</th>
<th>Params activos</th>
<th>Contexto</th>
<th>Audio</th>
<th>Vision</th>
</tr>
</thead>
<tbody>
<tr>
<td>E2B</td>
<td>~2B (PLE)</td>
<td>~2B</td>
<td>128K</td>
<td>Si</td>
<td>Si</td>
</tr>
<tr>
<td>E4B</td>
<td>~4B (PLE)</td>
<td>~4B</td>
<td>128K</td>
<td>Si</td>
<td>Si</td>
</tr>
<tr>
<td>26B A4B</td>
<td>26B (MoE)</td>
<td>3.8B</td>
<td>256K</td>
<td>No</td>
<td>Si</td>
</tr>
<tr>
<td>31B Dense</td>
<td>31B</td>
<td>31B</td>
<td>256K</td>
<td>No</td>
<td>Si</td>
</tr>
</tbody>
</table>
<p>La "E" de E2B y E4B viene de "Effective": usan Per-Layer Embeddings
(PLE), una tecnica donde cada capa del decoder recibe su propio vector
de condicionamiento. El resultado es un modelo que "parece" mas grande
de lo que es en parametros reales.</p>
<p>El 26B A4B es el mas interesante desde el punto de vista de
eficiencia: 128 expertos, 8 activos por token. Solo 3.8B parametros en
cada forward pass, pero con el conocimiento de 26B. Corre como un modelo
de 4B pero sabe como uno de 26B.</p>
<h1 id="ple-per-layer-embeddings">PLE: Per-Layer Embeddings</h1>
<p>En un transformer normal, cada token recibe un unico vector de
embedding al entrar. Ese vector tiene que "frontloadear" todo lo que el
modelo va a necesitar a lo largo de todas las capas. Es como meter toda
tu maleta en el bolsillo del pantalon.</p>
<p>PLE anade un camino paralelo: para cada token y cada capa, genera un
vector dedicado que combina dos senales:</p>
<ul>
<li><strong>Identidad del token</strong>: lookup de embedding (que token
soy)</li>
<li><strong>Contexto</strong>: proyeccion aprendida del embedding
principal (que pasa a mi alrededor)</li>
</ul>
<p>Cada capa usa su vector para modular los hidden states via un bloque
residual ligero. El efecto: los modelos pequenos (E2B, E4B) rinden como
modelos mucho mas grandes.</p>
<p>Dato duro: <strong>E4B saca 69.4% en MMLU Pro</strong>, superando al
Gemma 3 27B (67.6%). Un modelo de 4B efectivos batiendo a uno de 27B de
la generacion anterior.</p>
<h1 id="moe-mixture-of-experts">MoE: Mixture of Experts</h1>
<p>El 26B A4B usa MoE con 128 expertos y un router que selecciona 8 por
token. La clave: el router aprende durante el entrenamiento que expertos
son relevantes para cada tipo de input.</p>
<p>En la practica:</p>
<ul>
<li>Inferencia: solo 3.8B params activos por token (rapido, poco
VRAM)</li>
<li>Conocimiento: 26B params totales (sabe mucho)</li>
<li>VRAM: ~15GB en Q4, viable en GPUs de 16GB</li>
</ul>
<p>El 26B A4B queda 6o en el Arena AI text leaderboard con score 1441.
Para un modelo "open" con Apache 2.0, es brutal.</p>
<h1 id="multimodal-nativo">Multimodal nativo</h1>
<p>Todos los modelos procesan imagenes. Los pequenos (E2B, E4B) ademas
procesan audio nativo.</p>
<p>Vision:</p>
<ul>
<li>Resolucion variable via "visual token budget" (70, 140, 280, 560,
1120 tokens)</li>
<li>OCR multilingue, handwriting recognition, chart understanding</li>
<li>UI/screen understanding, document parsing</li>
<li>Input interleaved: mezcla texto e imagenes libremente en el
prompt</li>
</ul>
<p>Audio (solo E2B/E4B):</p>
<ul>
<li>ASR (reconocimiento de voz) multilingue</li>
<li>Speech-to-translated-text</li>
<li>Encoder conformer estilo USM</li>
<li>Maximo 30 segundos, 16kHz, 32ms frames</li>
</ul>
<p>Esto es relevante: un modelo de 4B con reconocimiento de voz nativo,
corriendo en un movil. Sin Whisper externo. Sin pipeline. Todo en
uno.</p>
<h1 id="benchmarks-los-numeros">Benchmarks: los numeros</h1>
<h2 id="gemma-4-31b-vs-la-competencia">Gemma 4 31B vs la
competencia</h2>
<table>
<thead>
<tr>
<th>Benchmark</th>
<th>Gemma 4 31B</th>
<th>Qwen 3.5 27B</th>
<th>Llama 4 Scout</th>
</tr>
</thead>
<tbody>
<tr>
<td>MMLU Pro</td>
<td>85.2%</td>
<td>86.1%</td>
<td>-</td>
</tr>
<tr>
<td>GPQA Diamond</td>
<td>84.3%</td>
<td>85.5%</td>
<td>-</td>
</tr>
<tr>
<td>AIME 2026</td>
<td>89.2%</td>
<td>-</td>
<td>-</td>
</tr>
<tr>
<td>LiveCodeBench</td>
<td>80.0%</td>
<td>-</td>
<td>-</td>
</tr>
<tr>
<td>Codeforces ELO</td>
<td>2150</td>
<td>-</td>
<td>-</td>
</tr>
</tbody>
</table>
<p>Qwen 3.5 gana por poco en MMLU y GPQA. Gemma 4 domina en matematicas
y coding. Llama 4 Scout (109B totales) va por detras de ambos.</p>
<h2 id="e4b-el-killer-de-los-pequenos">E4B: el killer de los
pequenos</h2>
<table>
<thead>
<tr>
<th>Benchmark</th>
<th>Gemma 4 E4B</th>
<th>Gemma 4 E2B</th>
<th>Gemma 3 27B</th>
</tr>
</thead>
<tbody>
<tr>
<td>MMLU Pro</td>
<td>69.4%</td>
<td>60.0%</td>
<td>67.6%</td>
</tr>
<tr>
<td>LiveCodeBench</td>
<td>52.0%</td>
<td>44.0%</td>
<td>-</td>
</tr>
<tr>
<td>MMMU Pro</td>
<td>52.6%</td>
<td>44.2%</td>
<td>-</td>
</tr>
</tbody>
</table>
<p>Un modelo de 4B que supera al 27B de la generacion anterior. Eso es
PLE haciendo su magia.</p>
<h1 id="contexto-practico-para-que-sirve-cada-tamano">Contexto practico:
para que sirve cada tamano</h1>
<ul>
<li><strong>E2B</strong>: movil, edge, IoT. Cabe en un telefono. Con
audio nativo, podria reemplazar pipelines de Whisper + LLM.</li>
<li><strong>E4B</strong>: laptop sin GPU dedicada, Raspberry Pi
potentes, triage local. El sweet spot calidad/coste.</li>
<li><strong>26B A4B</strong>: servidor con GPU de 16GB. Solo 3.8B
activos = rapido. 256K contexto = repositorios enteros.</li>
<li><strong>31B Dense</strong>: cuando necesitas maxima calidad y tienes
GPU(s) de 24GB+.</li>
</ul>
<h1 id="que-modelo-para-que-gpu">Que modelo para que GPU</h1>
<p>La pregunta practica: que necesitas para correr cada variante.</p>
<table>
<thead>
<tr>
<th>Modelo</th>
<th>VRAM Q4 (4K ctx)</th>
<th>VRAM Q8 (4K ctx)</th>
<th>GPU minima recomendada</th>
</tr>
</thead>
<tbody>
<tr>
<td>E2B</td>
<td>~1.5 GB</td>
<td>~2.5 GB</td>
<td>Cualquier GPU con 4GB</td>
</tr>
<tr>
<td>E4B</td>
<td>~3 GB</td>
<td>~5 GB</td>
<td>GTX 1660 / RTX 2060 6GB</td>
</tr>
<tr>
<td>26B A4B</td>
<td>~15 GB</td>
<td>~28 GB</td>
<td>RTX 4090 / A5000</td>
</tr>
<tr>
<td>31B Dense</td>
<td>~20 GB</td>
<td>~35 GB</td>
<td>2x RTX 3090 / A100</td>
</tr>
</tbody>
</table>
<p>Con contexto largo (256K) el 26B sube a ~23GB y el 31B a ~40GB. Los
pequenos se mantienen bien con 128K.</p>
<h1 id="el-elefante-ollama-0.20-necesario">El elefante: Ollama 0.20+
necesario</h1>
<p>Gemma 4 requiere Ollama v0.20.0 o superior. Nixpkgs estable trae
0.19.0 a dia de hoy (2026-04-06). Si usas NixOS, tocara esperar a que el
paquete se actualice o instalar el binario manualmente (es un tarball de
1.9GB con libs CUDA incluidas).</p>
<div class="sourceCode" id="cb1"><pre
class="sourceCode bash"><code class="sourceCode bash"><span id="cb1-1"><a href="#cb1-1" aria-hidden="true" tabindex="-1"></a><span class="co"># Verificar tu version</span></span>
<span id="cb1-2"><a href="#cb1-2" aria-hidden="true" tabindex="-1"></a><span class="ex">ollama</span> <span class="at">--version</span></span>
<span id="cb1-3"><a href="#cb1-3" aria-hidden="true" tabindex="-1"></a><span class="co"># Si sale &lt; 0.20.0, no podras hacer pull de gemma4</span></span></code></pre></div>
<p>Actualizaremos y anadiremos benchmarks locales en una segunda
parte.</p>
<h1 id="conclusion-provisional">Conclusion provisional</h1>
<p>Gemma 4 marca un antes y un despues en modelos open-source:</p>
<ol>
<li><strong>Apache 2.0 real</strong>: sin letra pequena, sin
restricciones de uso. Google se une a la fiesta que Qwen empezo.</li>
<li><strong>PLE en los pequenos</strong>: E4B (4B params) supera al
Gemma 3 27B. La eficiencia de parametros ha dado un salto.</li>
<li><strong>MoE accesible</strong>: 26B A4B activa solo 3.8B params por
token. Corre como un modelo de 4B, sabe como uno de 26B.</li>
<li><strong>Audio nativo</strong>: E2B y E4B incluyen ASR multilingue
sin pipeline externo. Adios Whisper + LLM para casos simples.</li>
<li><strong>Vision en todos</strong>: OCR, charts, UI understanding,
document parsing. Todos los tamanos.</li>
</ol>
<p>Lo que falta probar: rendimiento real en hardware domestico, calidad
de generacion en espanol, velocidad de inferencia con quantizacion
agresiva. Eso en la segunda parte, cuando Ollama 0.20 llegue a
NixOS.</p>
<p>La guerra de los modelos open se pone interesante. Meta con Llama 4
(restricciones), Alibaba con Qwen 3.5 (Apache 2.0), y ahora Google con
Gemma 4 (Apache 2.0). El que pierde es el que pone restricciones.</p>
<h1 id="fuentes">Fuentes</h1>
<ul>
<li><a
href="https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/">Gemma
4: Byte for byte, the most capable open models (Google Blog)</a></li>
<li><a
href="https://opensource.googleblog.com/2026/03/gemma-4-expanding-the-gemmaverse-with-apache-20.html">Gemma
4: Expanding the Gemmaverse with Apache 2.0</a></li>
<li><a href="https://huggingface.co/blog/gemma4">Welcome Gemma 4
(HuggingFace)</a></li>
<li><a href="https://ai.google.dev/gemma/docs/core">Gemma 4 model
overview (Google AI for Developers)</a></li>
<li><a href="https://ai.google.dev/gemma/docs/core/model_card_4">Gemma 4
Model Card</a></li>
<li><a href="https://ollama.com/library/gemma4">Gemma 4 en
Ollama</a></li>
<li><a
href="https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4">A
Visual Guide to Gemma 4 (Maarten Grootendorst)</a></li>
<li><a
href="https://ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared">Gemma
4 vs Qwen 3.5 vs Llama 4: Updated Benchmarks</a></li>
</ul>

Estas seguro? Esto no se puede deshacer.

Comentarios (0)

Sin comentarios todavia. Se el primero!