Gemma 4: Google suelta las cadenas (Apache 2.0, MoE, audio nativo)


6 de abril de 2026

Gemma 4: lo que ha cambiado

Google acaba de liberar Gemma 4 bajo Apache 2.0. No "open-weight con restricciones", no "puedes usarlo pero no para competir con nosotros", no letra pequena. Apache 2.0 real: usa, modifica, redistribuye, vende. Como Qwen. Como deberia haber sido siempre.

Las versiones anteriores de Gemma venian con un "Gemma Usage Policy" que las hacia open-weight de boquilla. Ahora, por primera vez en la familia, todos los modelos salen con licencia de verdad.

La familia Gemma 4

Cuatro tamanos, cada uno con su razon de existir:

Modelo Params totales Params activos Contexto Audio Vision
E2B ~2B (PLE) ~2B 128K Si Si
E4B ~4B (PLE) ~4B 128K Si Si
26B A4B 26B (MoE) 3.8B 256K No Si
31B Dense 31B 31B 256K No Si

La "E" de E2B y E4B viene de "Effective": usan Per-Layer Embeddings (PLE), una tecnica donde cada capa del decoder recibe su propio vector de condicionamiento. El resultado es un modelo que "parece" mas grande de lo que es en parametros reales.

El 26B A4B es el mas interesante desde el punto de vista de eficiencia: 128 expertos, 8 activos por token. Solo 3.8B parametros en cada forward pass, pero con el conocimiento de 26B. Corre como un modelo de 4B pero sabe como uno de 26B.

PLE: Per-Layer Embeddings

En un transformer normal, cada token recibe un unico vector de embedding al entrar. Ese vector tiene que "frontloadear" todo lo que el modelo va a necesitar a lo largo de todas las capas. Es como meter toda tu maleta en el bolsillo del pantalon.

PLE anade un camino paralelo: para cada token y cada capa, genera un vector dedicado que combina dos senales:

Cada capa usa su vector para modular los hidden states via un bloque residual ligero. El efecto: los modelos pequenos (E2B, E4B) rinden como modelos mucho mas grandes.

Dato duro: E4B saca 69.4% en MMLU Pro, superando al Gemma 3 27B (67.6%). Un modelo de 4B efectivos batiendo a uno de 27B de la generacion anterior.

MoE: Mixture of Experts

El 26B A4B usa MoE con 128 expertos y un router que selecciona 8 por token. La clave: el router aprende durante el entrenamiento que expertos son relevantes para cada tipo de input.

En la practica:

El 26B A4B queda 6o en el Arena AI text leaderboard con score 1441. Para un modelo "open" con Apache 2.0, es brutal.

Multimodal nativo

Todos los modelos procesan imagenes. Los pequenos (E2B, E4B) ademas procesan audio nativo.

Vision:

Audio (solo E2B/E4B):

Esto es relevante: un modelo de 4B con reconocimiento de voz nativo, corriendo en un movil. Sin Whisper externo. Sin pipeline. Todo en uno.

Benchmarks: los numeros

Gemma 4 31B vs la competencia

Benchmark Gemma 4 31B Qwen 3.5 27B Llama 4 Scout
MMLU Pro 85.2% 86.1% -
GPQA Diamond 84.3% 85.5% -
AIME 2026 89.2% - -
LiveCodeBench 80.0% - -
Codeforces ELO 2150 - -

Qwen 3.5 gana por poco en MMLU y GPQA. Gemma 4 domina en matematicas y coding. Llama 4 Scout (109B totales) va por detras de ambos.

E4B: el killer de los pequenos

Benchmark Gemma 4 E4B Gemma 4 E2B Gemma 3 27B
MMLU Pro 69.4% 60.0% 67.6%
LiveCodeBench 52.0% 44.0% -
MMMU Pro 52.6% 44.2% -

Un modelo de 4B que supera al 27B de la generacion anterior. Eso es PLE haciendo su magia.

Contexto practico: para que sirve cada tamano

Que modelo para que GPU

La pregunta practica: que necesitas para correr cada variante.

Modelo VRAM Q4 (4K ctx) VRAM Q8 (4K ctx) GPU minima recomendada
E2B ~1.5 GB ~2.5 GB Cualquier GPU con 4GB
E4B ~3 GB ~5 GB GTX 1660 / RTX 2060 6GB
26B A4B ~15 GB ~28 GB RTX 4090 / A5000
31B Dense ~20 GB ~35 GB 2x RTX 3090 / A100

Con contexto largo (256K) el 26B sube a ~23GB y el 31B a ~40GB. Los pequenos se mantienen bien con 128K.

El elefante: Ollama 0.20+ necesario

Gemma 4 requiere Ollama v0.20.0 o superior. Nixpkgs estable trae 0.19.0 a dia de hoy (2026-04-06). Si usas NixOS, tocara esperar a que el paquete se actualice o instalar el binario manualmente (es un tarball de 1.9GB con libs CUDA incluidas).

# Verificar tu version
ollama --version
# Si sale < 0.20.0, no podras hacer pull de gemma4

Actualizaremos y anadiremos benchmarks locales en una segunda parte.

Conclusion provisional

Gemma 4 marca un antes y un despues en modelos open-source:

  1. Apache 2.0 real: sin letra pequena, sin restricciones de uso. Google se une a la fiesta que Qwen empezo.
  2. PLE en los pequenos: E4B (4B params) supera al Gemma 3 27B. La eficiencia de parametros ha dado un salto.
  3. MoE accesible: 26B A4B activa solo 3.8B params por token. Corre como un modelo de 4B, sabe como uno de 26B.
  4. Audio nativo: E2B y E4B incluyen ASR multilingue sin pipeline externo. Adios Whisper + LLM para casos simples.
  5. Vision en todos: OCR, charts, UI understanding, document parsing. Todos los tamanos.

Lo que falta probar: rendimiento real en hardware domestico, calidad de generacion en espanol, velocidad de inferencia con quantizacion agresiva. Eso en la segunda parte, cuando Ollama 0.20 llegue a NixOS.

La guerra de los modelos open se pone interesante. Meta con Llama 4 (restricciones), Alibaba con Qwen 3.5 (Apache 2.0), y ahora Google con Gemma 4 (Apache 2.0). El que pierde es el que pone restricciones.

Fuentes

Comparte este post:

Es tu post

Estas seguro? Esto no se puede deshacer.

Comentarios (0)

Sin comentarios todavia. Se el primero!

Deja un comentario