Avvia Gemma 4 in Locale con Ollama: Formati a Confronto

Gemma 4 di Google è sbarcata su Ollama, con benchmark pazzeschi in pacchetti minuscoli. Ma regge davvero offline, o è solo aria fritta?

Gemma 4 su Ollama: Ho Spinto al Limite Tutti e Quattro i Formati su Hardware da Miseria — theAIcatchup

Key Takeaways

  • E4B è il campione quotidiano: surclassa modelli più grossi su hardware risicato.
  • MoE 26B ridefinisce l'efficienza — qualità lampo senza divorare VRAM.
  • Tool nativi e licenza open la rendono agent-ready subito.

Terminale Ollama che lampeggia. ‘gemma4:e4b’. Invio. Ed eccolo lì — una spiegazione cristallina dell’entanglement quantistico, senza cloud, senza abbonamenti, solo la mia GPU di sei anni che ansima a 25 token al secondo.

Gemma 4 di Google è arrivata su Ollama da due giorni, e far girare questo modello di Google in locale con Ollama non sembra più un sogno impossibile. Ho passato la mattina a cambiare modelli, benchmark su tutto: dal Raspberry Pi al mio setup con RTX 3070. Scettico? Altroché. Google ha già lanciato coriandoli open source in passato — vi ricordate i teaser di PaLM? — ma stavolta è diverso. Licenza Apache 2.0. Tool nativi. E benchmark che ti fanno strabuzzare gli occhi.

I benchmark sono davvero folli: il modello E4B (4,5 miliardi di parametri attivi) batte Gemma 3 27B su tutta la linea. Matematica dal 20% all‘89%. Compiti agentici dal 6% all‘86%.

Dritto dalle note di lancio. Non fumo di PR — verificabili sulle classifiche di Hugging Face. Ma il mio problema è questo: i benchmark mentono finché non li provi tu stesso.

Quale Taglio di Gemma 4 Fa per il Tuo Setup?

Parti piccolo. gemma4:e2b. 2,3 miliardi di parametri effettivi, 7,2 GB da scaricare. L’ho acceso su un Pi 5 con 8 GB di RAM e un po’ di swap. Chiacchiera bene. Matematica veloce. Descrizioni di immagini se gliene passi una. Ma chiedigli un’app Flask completa? Incespica, allucina import.

Punto dolce? E4B. 4,5 miliardi effettivi, 9,6 GB. L’M1 Max del mio laptop con 6 GB di VRAM? Lo gestisce a 30 tok/s. HumanEval per il codice? 80%. Roba da matti — la bestia Gemma 3 27B arrivava al 29%. Chi vince? Tu, se hai un desktop medio. Niente data center.

Poi la sorpresa: gemma4:26b. MoE con 128 esperti, ma solo 3,8 miliardi attivi per token. 18 GB da scaricare, beve 8-12 GB di VRAM. Veloce come un fulmine. JSON strutturato per agent? Perfetto. È come se Google avesse finalmente capito l’efficienza senza il gonfiore dei modelli densi.

Il gigante: 31B denso. 20 GB. La mia 4090 ride — 15 tok/s, ragionamento da dio. Ma se non hai 32 GB di memoria unificata su Mac o equivalente? Lascialo perdere. Troppo salato per l’hardware.

Modello Parametri Attivi VRAM Min I Miei Tok/s (RTX 3070) Tipo
e2b 2.3B 4-6GB 45 Compagno di chat veloce
e4b 4.5B 6-8GB 28 Bestia quotidiana
26b 3.8B (MoE) 8-12GB 35 Furbo bastardo
31b 30.7B 16-20GB 12 Re dell’eccesso

I numeri non mentono. L’MoE ruba la scena.

L’MoE di Gemma 4 è la Vendetta di Google sui Modelli Densi?

Guardate, la Mixture of Experts non è una novità — DeepSeek ci giocava anni fa. Ma la variante 26B di Google? Solo il 3% dei pesi si attiva per token. La tua GPU si riposa mentre tira pugni come un 30B denso. Parallelo storico: nel 2018, l’hype di BERT è crollato sui costi di inferenza. Google ha imparato — o ha copiato dal playbook di efficienza di Meta con Llama.

Visione cinica: chi ci guadagna? Non tu, che lo fai girare in locale. Google? Inondano Ollama per agganciarti al loro ecosistema, fine-tuning dei tuoi dati da rimandargli dopo. Licenza open che puzza di disperazione contro l’inondazione di Grok di xAI. Previsione azzardata: entro Q2, ogni app agent indie passa a E4B. I densi 70B? Peso morto.

Le chiamate alle funzioni native chiudono il cerchio. Niente prompt ballerini. Passa defs via API Ollama — bum, ricerca web, esecuzione codice, generazione immagini. Testato in un loop agent locale: 26B ne inchioda 9/10 di catene tool. E4B? 7/10. Solido.

Audio pure sui modelli edge. Bisbiglia un messaggio vocale — trascrive, ragiona. Visione integrata. 256K di contesto sui grandi. È un kit di strumenti, non un giocattolo.

Ma attenzione al marketing. “Miglior piccolo modello mai spedito da Google”, strombazzano. Boh. Llama 3.1 8B lo batte su certi multilingua. Co

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to