Gemma 4: Google suelta las cadenas (Apache 2.0, MoE, audio nativo)
Gemma 4: lo que ha cambiado
Google acaba de liberar Gemma 4 bajo Apache 2.0. No "open-weight con restricciones", no "puedes usarlo pero no para competir con nosotros", no letra pequena. Apache 2.0 real: usa, modifica, redistribuye, vende. Como Qwen. Como deberia haber sido siempre.
Las versiones anteriores de Gemma venian con un "Gemma Usage Policy" que las hacia open-weight de boquilla. Ahora, por primera vez en la familia, todos los modelos salen con licencia de verdad.
La familia Gemma 4
Cuatro tamanos, cada uno con su razon de existir:
| Modelo | Params totales | Params activos | Contexto | Audio | Vision |
|---|---|---|---|---|---|
| E2B | ~2B (PLE) | ~2B | 128K | Si | Si |
| E4B | ~4B (PLE) | ~4B | 128K | Si | Si |
| 26B A4B | 26B (MoE) | 3.8B | 256K | No | Si |
| 31B Dense | 31B | 31B | 256K | No | Si |
La "E" de E2B y E4B viene de "Effective": usan Per-Layer Embeddings (PLE), una tecnica donde cada capa del decoder recibe su propio vector de condicionamiento. El resultado es un modelo que "parece" mas grande de lo que es en parametros reales.
El 26B A4B es el mas interesante desde el punto de vista de eficiencia: 128 expertos, 8 activos por token. Solo 3.8B parametros en cada forward pass, pero con el conocimiento de 26B. Corre como un modelo de 4B pero sabe como uno de 26B.
PLE: Per-Layer Embeddings
En un transformer normal, cada token recibe un unico vector de embedding al entrar. Ese vector tiene que "frontloadear" todo lo que el modelo va a necesitar a lo largo de todas las capas. Es como meter toda tu maleta en el bolsillo del pantalon.
PLE anade un camino paralelo: para cada token y cada capa, genera un vector dedicado que combina dos senales:
- Identidad del token: lookup de embedding (que token soy)
- Contexto: proyeccion aprendida del embedding principal (que pasa a mi alrededor)
Cada capa usa su vector para modular los hidden states via un bloque residual ligero. El efecto: los modelos pequenos (E2B, E4B) rinden como modelos mucho mas grandes.
Dato duro: E4B saca 69.4% en MMLU Pro, superando al Gemma 3 27B (67.6%). Un modelo de 4B efectivos batiendo a uno de 27B de la generacion anterior.
MoE: Mixture of Experts
El 26B A4B usa MoE con 128 expertos y un router que selecciona 8 por token. La clave: el router aprende durante el entrenamiento que expertos son relevantes para cada tipo de input.
En la practica:
- Inferencia: solo 3.8B params activos por token (rapido, poco VRAM)
- Conocimiento: 26B params totales (sabe mucho)
- VRAM: ~15GB en Q4, viable en GPUs de 16GB
El 26B A4B queda 6o en el Arena AI text leaderboard con score 1441. Para un modelo "open" con Apache 2.0, es brutal.
Multimodal nativo
Todos los modelos procesan imagenes. Los pequenos (E2B, E4B) ademas procesan audio nativo.
Vision:
- Resolucion variable via "visual token budget" (70, 140, 280, 560, 1120 tokens)
- OCR multilingue, handwriting recognition, chart understanding
- UI/screen understanding, document parsing
- Input interleaved: mezcla texto e imagenes libremente en el prompt
Audio (solo E2B/E4B):
- ASR (reconocimiento de voz) multilingue
- Speech-to-translated-text
- Encoder conformer estilo USM
- Maximo 30 segundos, 16kHz, 32ms frames
Esto es relevante: un modelo de 4B con reconocimiento de voz nativo, corriendo en un movil. Sin Whisper externo. Sin pipeline. Todo en uno.
Benchmarks: los numeros
Gemma 4 31B vs la competencia
| Benchmark | Gemma 4 31B | Qwen 3.5 27B | Llama 4 Scout |
|---|---|---|---|
| MMLU Pro | 85.2% | 86.1% | - |
| GPQA Diamond | 84.3% | 85.5% | - |
| AIME 2026 | 89.2% | - | - |
| LiveCodeBench | 80.0% | - | - |
| Codeforces ELO | 2150 | - | - |
Qwen 3.5 gana por poco en MMLU y GPQA. Gemma 4 domina en matematicas y coding. Llama 4 Scout (109B totales) va por detras de ambos.
E4B: el killer de los pequenos
| Benchmark | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B |
|---|---|---|---|
| MMLU Pro | 69.4% | 60.0% | 67.6% |
| LiveCodeBench | 52.0% | 44.0% | - |
| MMMU Pro | 52.6% | 44.2% | - |
Un modelo de 4B que supera al 27B de la generacion anterior. Eso es PLE haciendo su magia.
Contexto practico: para que sirve cada tamano
- E2B: movil, edge, IoT. Cabe en un telefono. Con audio nativo, podria reemplazar pipelines de Whisper + LLM.
- E4B: laptop sin GPU dedicada, Raspberry Pi potentes, triage local. El sweet spot calidad/coste.
- 26B A4B: servidor con GPU de 16GB. Solo 3.8B activos = rapido. 256K contexto = repositorios enteros.
- 31B Dense: cuando necesitas maxima calidad y tienes GPU(s) de 24GB+.
Que modelo para que GPU
La pregunta practica: que necesitas para correr cada variante.
| Modelo | VRAM Q4 (4K ctx) | VRAM Q8 (4K ctx) | GPU minima recomendada |
|---|---|---|---|
| E2B | ~1.5 GB | ~2.5 GB | Cualquier GPU con 4GB |
| E4B | ~3 GB | ~5 GB | GTX 1660 / RTX 2060 6GB |
| 26B A4B | ~15 GB | ~28 GB | RTX 4090 / A5000 |
| 31B Dense | ~20 GB | ~35 GB | 2x RTX 3090 / A100 |
Con contexto largo (256K) el 26B sube a ~23GB y el 31B a ~40GB. Los pequenos se mantienen bien con 128K.
El elefante: Ollama 0.20+ necesario
Gemma 4 requiere Ollama v0.20.0 o superior. Nixpkgs estable trae 0.19.0 a dia de hoy (2026-04-06). Si usas NixOS, tocara esperar a que el paquete se actualice o instalar el binario manualmente (es un tarball de 1.9GB con libs CUDA incluidas).
# Verificar tu version
ollama --version
# Si sale < 0.20.0, no podras hacer pull de gemma4Actualizaremos y anadiremos benchmarks locales en una segunda parte.
Conclusion provisional
Gemma 4 marca un antes y un despues en modelos open-source:
- Apache 2.0 real: sin letra pequena, sin restricciones de uso. Google se une a la fiesta que Qwen empezo.
- PLE en los pequenos: E4B (4B params) supera al Gemma 3 27B. La eficiencia de parametros ha dado un salto.
- MoE accesible: 26B A4B activa solo 3.8B params por token. Corre como un modelo de 4B, sabe como uno de 26B.
- Audio nativo: E2B y E4B incluyen ASR multilingue sin pipeline externo. Adios Whisper + LLM para casos simples.
- Vision en todos: OCR, charts, UI understanding, document parsing. Todos los tamanos.
Lo que falta probar: rendimiento real en hardware domestico, calidad de generacion en espanol, velocidad de inferencia con quantizacion agresiva. Eso en la segunda parte, cuando Ollama 0.20 llegue a NixOS.
La guerra de los modelos open se pone interesante. Meta con Llama 4 (restricciones), Alibaba con Qwen 3.5 (Apache 2.0), y ahora Google con Gemma 4 (Apache 2.0). El que pierde es el que pone restricciones.
Fuentes
- Gemma 4: Byte for byte, the most capable open models (Google Blog)
- Gemma 4: Expanding the Gemmaverse with Apache 2.0
- Welcome Gemma 4 (HuggingFace)
- Gemma 4 model overview (Google AI for Developers)
- Gemma 4 Model Card
- Gemma 4 en Ollama
- A Visual Guide to Gemma 4 (Maarten Grootendorst)
- Gemma 4 vs Qwen 3.5 vs Llama 4: Updated Benchmarks
Comentarios (0)
Sin comentarios todavia. Se el primero!
Deja un comentario