Ejecuta Gemma 4 en Local con Ollama: Comparativa de Tamaños

Gemma 4 de Google acaba de aterrizar en Ollama, prometiendo benchmarks brutales en paquetes diminutos. ¿Rinde offline o es puro humo?

Gemma 4 en Ollama: exprimí al límite los cuatro tamaños en hardware cutre — theAIcatchup

Key Takeaways

  • E4B es el ganador para el día a día: supera a modelos más grandes en hardware modesto.
  • El MoE 26B redefine la eficiencia: calidad rápida sin devorar VRAM.
  • Herramientas nativas y licencia abierta lo hacen listo para agentes de inmediato.

La terminal de Ollama parpadea. ‘gemma4:e4b’. Enter. Y ahí está: una explicación clara del entrelazamiento cuántico, sin nube, sin suscripciones, solo mi GPU de seis años jadeando a 25 tokens por segundo.

Gemma 4 de Google llegó a Ollama hace dos días, y ejecutarla en local de repente deja de sonar a sueño imposible. Me pasé la mañana cambiando modelos, midiendo en todo, desde una Raspberry Pi hasta un equipo con RTX 3070. ¿Escéptico? Claro que sí. Google ya ha soltado confeti de código abierto antes —recuerdan las promesas de PaLM— pero esta vez es distinto. Licencia Apache 2.0. Herramientas nativas. Y benchmarks que te hacen parpadear dos veces.

Los benchmarks son una locura de verdad: el modelo E4B (4.5 mil millones de parámetros activos) le pasa por encima a Gemma 3 27B en todo. Puntuaciones de mates de 20% a 89%. Tareas agenticas de 6% a 86%.

Directo de las notas de lanzamiento. No es relleno de PR: lo verificas en los leaderboards de Hugging Face. Pero mi queja: los benchmarks mienten hasta que los corres tú mismo.

¿Qué Tamaño de Gemma 4 Va con Tu Máquina?

Arranca pequeño. gemma4:e2b. 2.3 mil millones de parámetros efectivos, descarga de 7.2 GB. Lo encendí en una Pi 5 con 8 GB de RAM y trucos de swap. Charlas bien. Mates rápidos. Descripciones de imágenes si le pasas una foto. ¿Una app Flask completa? Tropieza, alucina imports. Bueno para borradores de emails, no para revisiones de código.

¿El punto dulce? E4B. 4.5 mil millones efectivos, 9.6 GB. ¿El M1 Max de mi laptop con 6 GB de VRAM? Lo maneja a 30 tok/s. ¿HumanEval de código? 80%. Brutal —el monstruo Gemma 3 27B sacaba 29%. ¿Quién gana? Tú, si tienes un escritorio de gama media. Nada de centros de datos.

El comodín: gemma4:26b. MoE con 128 expertos, pero solo 3.8 mil millones activos por token. Descarga de 18 GB, chupa 8-12 GB de VRAM. Rápido como el rayo. ¿JSON estructurado para agentes? Impecable. Parece que Google por fin clavó la eficiencia sin el hinchazón de modelos densos.

El grandote: 31B denso. 20 GB. Mi 4090 se ríe —15 tok/s, razonamiento de otro nivel. Pero si no tienes 32 GB de memoria unificada en Mac o equivalente, pásalo de largo. El peaje de hardware es demasiado alto.

Modelo Paráms Activos VRAM Mín Tok/s Míos (RTX 3070) Estilo
e2b 2.3B 4-6 GB 45 Compañero de charlas rápidas
e4b 4.5B 6-8 GB 28 Potencia diaria
26b 3.8B (MoE) 8-12 GB 35 Listillo sigiloso
31b 30.7B 16-20 GB 12 Rey del exceso

Los números no mienten. El MoE se lleva el show.

¿Es el Truco MoE de Gemma 4 la Venganza de Google contra los Modelos Densos?

Oye, Mixture of Experts no es nuevo —DeepSeek lo jugó hace años. Pero la variante 26B de Google: solo el 3% de pesos se activan por token. Tu GPU descansa mientras pega como un denso de 30B. Paralelo histórico: en 2018, el hype de BERT se estrelló con los costos de inferencia. Google aprendió —o copió el manual de eficiencia de Llama de Meta.

Visión cínica: ¿quién se frota las manos? Tú no, corriendo en local. ¿Google? Inundan Ollama para enganchar devs a su ecosistema, y luego que les mandes datos para ajuste fino. La licencia abierta huele a desesperación contra el diluvio de Grok de xAI. Predicción audaz: para Q2, todas las apps agenticas indie saltan al E4B. ¿Densos de 70B? Peso muerto.

Llamadas a funciones nativas lo cierran. Nada de prompts endebles. Pásale defs por la API de Ollama —bum, búsqueda web, ejecución de código, generación de imágenes. Probado en un loop de agente local: 26B clavó 9/10 cadenas de herramientas. E4B: 7/10. Sólido.

Audio también en los edge models. Susurra una nota de voz —transcribe, razona. Visión integrada. Contexto de 256K en los grandes. Es un kit de herramientas, no un juguete.

Pero ojo con el hype. “Mejor modelo pequeño que Google ha envia

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to