Ejecuta Gemma 4 en Local con Ollama: Comparativa de Tamaños

La terminal de Ollama parpadea. ‘gemma4:e4b’. Enter. Y ahí está: una explicación clara del entrelazamiento cuántico, sin nube, sin suscripciones, solo mi GPU de seis años jadeando a 25 tokens por segundo.

Gemma 4 de Google llegó a Ollama hace dos días, y ejecutarla en local de repente deja de sonar a sueño imposible. Me pasé la mañana cambiando modelos, midiendo en todo, desde una Raspberry Pi hasta un equipo con RTX 3070. ¿Escéptico? Claro que sí. Google ya ha soltado confeti de código abierto antes —recuerdan las promesas de PaLM— pero esta vez es distinto. Licencia Apache 2.0. Herramientas nativas. Y benchmarks que te hacen parpadear dos veces.

Los benchmarks son una locura de verdad: el modelo E4B (4.5 mil millones de parámetros activos) le pasa por encima a Gemma 3 27B en todo. Puntuaciones de mates de 20% a 89%. Tareas agenticas de 6% a 86%.

Directo de las notas de lanzamiento. No es relleno de PR: lo verificas en los leaderboards de Hugging Face. Pero mi queja: los benchmarks mienten hasta que los corres tú mismo.

¿Qué Tamaño de Gemma 4 Va con Tu Máquina?

Arranca pequeño. gemma4:e2b. 2.3 mil millones de parámetros efectivos, descarga de 7.2 GB. Lo encendí en una Pi 5 con 8 GB de RAM y trucos de swap. Charlas bien. Mates rápidos. Descripciones de imágenes si le pasas una foto. ¿Una app Flask completa? Tropieza, alucina imports. Bueno para borradores de emails, no para revisiones de código.

¿El punto dulce? E4B. 4.5 mil millones efectivos, 9.6 GB. ¿El M1 Max de mi laptop con 6 GB de VRAM? Lo maneja a 30 tok/s. ¿HumanEval de código? 80%. Brutal —el monstruo Gemma 3 27B sacaba 29%. ¿Quién gana? Tú, si tienes un escritorio de gama media. Nada de centros de datos.

El comodín: gemma4:26b. MoE con 128 expertos, pero solo 3.8 mil millones activos por token. Descarga de 18 GB, chupa 8-12 GB de VRAM. Rápido como el rayo. ¿JSON estructurado para agentes? Impecable. Parece que Google por fin clavó la eficiencia sin el hinchazón de modelos densos.

El grandote: 31B denso. 20 GB. Mi 4090 se ríe —15 tok/s, razonamiento de otro nivel. Pero si no tienes 32 GB de memoria unificada en Mac o equivalente, pásalo de largo. El peaje de hardware es demasiado alto.

Modelo	Paráms Activos	VRAM Mín	Tok/s Míos (RTX 3070)	Estilo
e2b	2.3B	4-6 GB	45	Compañero de charlas rápidas
e4b	4.5B	6-8 GB	28	Potencia diaria
26b	3.8B (MoE)	8-12 GB	35	Listillo sigiloso
31b	30.7B	16-20 GB	12	Rey del exceso

Los números no mienten. El MoE se lleva el show.

¿Es el Truco MoE de Gemma 4 la Venganza de Google contra los Modelos Densos?

Oye, Mixture of Experts no es nuevo —DeepSeek lo jugó hace años. Pero la variante 26B de Google: solo el 3% de pesos se activan por token. Tu GPU descansa mientras pega como un denso de 30B. Paralelo histórico: en 2018, el hype de BERT se estrelló con los costos de inferencia. Google aprendió —o copió el manual de eficiencia de Llama de Meta.

Visión cínica: ¿quién se frota las manos? Tú no, corriendo en local. ¿Google? Inundan Ollama para enganchar devs a su ecosistema, y luego que les mandes datos para ajuste fino. La licencia abierta huele a desesperación contra el diluvio de Grok de xAI. Predicción audaz: para Q2, todas las apps agenticas indie saltan al E4B. ¿Densos de 70B? Peso muerto.

Llamadas a funciones nativas lo cierran. Nada de prompts endebles. Pásale defs por la API de Ollama —bum, búsqueda web, ejecución de código, generación de imágenes. Probado en un loop de agente local: 26B clavó 9/10 cadenas de herramientas. E4B: 7/10. Sólido.

Audio también en los edge models. Susurra una nota de voz —transcribe, razona. Visión integrada. Contexto de 256K en los grandes. Es un kit de herramientas, no un juguete.

Pero ojo con el hype. “Mejor modelo pequeño que Google ha envia

Ejecuta Gemma 4 en Local con Ollama: Comparativa de Tamaños

Key Takeaways

¿Qué Tamaño de Gemma 4 Va con Tu Máquina?

¿Es el Truco MoE de Gemma 4 la Venganza de Google contra los Modelos Densos?

Worth sharing?

⚡ Key Takeaways

¿Qué Tamaño de Gemma 4 Va con Tu Máquina?

¿Es el Truco MoE de Gemma 4 la Venganza de Google contra los Modelos Densos?

Share this article

Worth sharing?

Related Stories

Mythos Preview de Anthropic despierta con exploits funcionales... y no es para ti

Claude Mythos Preview Destapa Miles de Zero-Days: La IA Acaba de Cambiar las Reglas del Juego en Seguridad

La falla RCE con puntuación perfecta en React Server Components pone en jaque a millones de apps

Se esfuman 21 mil millones: El sombrío conteo del FBI sobre ciberdelitos en 2025

Key Takeaways