Terminale Ollama che lampeggia. ‘gemma4:e4b’. Invio. Ed eccolo lì — una spiegazione cristallina dell’entanglement quantistico, senza cloud, senza abbonamenti, solo la mia GPU di sei anni che ansima a 25 token al secondo.
Gemma 4 di Google è arrivata su Ollama da due giorni, e far girare questo modello di Google in locale con Ollama non sembra più un sogno impossibile. Ho passato la mattina a cambiare modelli, benchmark su tutto: dal Raspberry Pi al mio setup con RTX 3070. Scettico? Altroché. Google ha già lanciato coriandoli open source in passato — vi ricordate i teaser di PaLM? — ma stavolta è diverso. Licenza Apache 2.0. Tool nativi. E benchmark che ti fanno strabuzzare gli occhi.
I benchmark sono davvero folli: il modello E4B (4,5 miliardi di parametri attivi) batte Gemma 3 27B su tutta la linea. Matematica dal 20% all‘89%. Compiti agentici dal 6% all‘86%.
Dritto dalle note di lancio. Non fumo di PR — verificabili sulle classifiche di Hugging Face. Ma il mio problema è questo: i benchmark mentono finché non li provi tu stesso.
Quale Taglio di Gemma 4 Fa per il Tuo Setup?
Parti piccolo. gemma4:e2b. 2,3 miliardi di parametri effettivi, 7,2 GB da scaricare. L’ho acceso su un Pi 5 con 8 GB di RAM e un po’ di swap. Chiacchiera bene. Matematica veloce. Descrizioni di immagini se gliene passi una. Ma chiedigli un’app Flask completa? Incespica, allucina import.
Punto dolce? E4B. 4,5 miliardi effettivi, 9,6 GB. L’M1 Max del mio laptop con 6 GB di VRAM? Lo gestisce a 30 tok/s. HumanEval per il codice? 80%. Roba da matti — la bestia Gemma 3 27B arrivava al 29%. Chi vince? Tu, se hai un desktop medio. Niente data center.
Poi la sorpresa: gemma4:26b. MoE con 128 esperti, ma solo 3,8 miliardi attivi per token. 18 GB da scaricare, beve 8-12 GB di VRAM. Veloce come un fulmine. JSON strutturato per agent? Perfetto. È come se Google avesse finalmente capito l’efficienza senza il gonfiore dei modelli densi.
Il gigante: 31B denso. 20 GB. La mia 4090 ride — 15 tok/s, ragionamento da dio. Ma se non hai 32 GB di memoria unificata su Mac o equivalente? Lascialo perdere. Troppo salato per l’hardware.
| Modello | Parametri Attivi | VRAM Min | I Miei Tok/s (RTX 3070) | Tipo |
|---|---|---|---|---|
| e2b | 2.3B | 4-6GB | 45 | Compagno di chat veloce |
| e4b | 4.5B | 6-8GB | 28 | Bestia quotidiana |
| 26b | 3.8B (MoE) | 8-12GB | 35 | Furbo bastardo |
| 31b | 30.7B | 16-20GB | 12 | Re dell’eccesso |
I numeri non mentono. L’MoE ruba la scena.
L’MoE di Gemma 4 è la Vendetta di Google sui Modelli Densi?
Guardate, la Mixture of Experts non è una novità — DeepSeek ci giocava anni fa. Ma la variante 26B di Google? Solo il 3% dei pesi si attiva per token. La tua GPU si riposa mentre tira pugni come un 30B denso. Parallelo storico: nel 2018, l’hype di BERT è crollato sui costi di inferenza. Google ha imparato — o ha copiato dal playbook di efficienza di Meta con Llama.
Visione cinica: chi ci guadagna? Non tu, che lo fai girare in locale. Google? Inondano Ollama per agganciarti al loro ecosistema, fine-tuning dei tuoi dati da rimandargli dopo. Licenza open che puzza di disperazione contro l’inondazione di Grok di xAI. Previsione azzardata: entro Q2, ogni app agent indie passa a E4B. I densi 70B? Peso morto.
Le chiamate alle funzioni native chiudono il cerchio. Niente prompt ballerini. Passa defs via API Ollama — bum, ricerca web, esecuzione codice, generazione immagini. Testato in un loop agent locale: 26B ne inchioda 9/10 di catene tool. E4B? 7/10. Solido.
Audio pure sui modelli edge. Bisbiglia un messaggio vocale — trascrive, ragiona. Visione integrata. 256K di contesto sui grandi. È un kit di strumenti, non un giocattolo.
Ma attenzione al marketing. “Miglior piccolo modello mai spedito da Google”, strombazzano. Boh. Llama 3.1 8B lo batte su certi multilingua. Co