Gemma 4 en local avec Ollama : les tailles à l'épreuve

Terminal Ollama qui clignote. ‘gemma4:e4b’. Entrée. Et hop — une explication limpide de l’intrication quantique, sans cloud, sans abonnement, juste mon GPU six ans d’âge qui halète à 25 jetons par seconde.

Gemma 4 de Google a atterri sur Ollama il y a deux jours, et le faire tourner en local avec Ollama passe subitement de rêve fou à réalité. J’ai passé la matinée à switcher les modèles, à benchmarker sur tout, du Raspberry Pi à une config RTX 3070. Sceptique ? Vous avez raison. Google a déjà balancé de la confettis open source — rappelez-vous les teasers de PaLM ? — mais là, c’est autre chose. Licence Apache 2.0. Outils natifs. Et des benchmarks qui font hausser les sourcils.

Les benchmarks sont dingues pour de bon : le modèle E4B (4,5 milliards de paramètres actifs) surpasse Gemma 3 27B partout. Scores maths de 20 % à 89 %. Tâches agentiques de 6 % à 86 %.

Droit sorti des notes de lancement. Pas du bla-bla marketing — vérifiable sur les leaderboards Hugging Face. Mais mon reproche : les benchmarks mentent tant que vous ne les testez pas vous-même.

Quelle taille de Gemma 4 pour votre config ?

On commence petit. gemma4:e2b. 2,3 milliards de paramètres effectifs, 7,2 Go à télécharger. Lancé sur un Pi 5 avec 8 Go de RAM et un peu de swap. Bavardage OK. Maths rapides. Descriptions d’images si vous lui filez une photo. Mais une app Flask complète ? Il patine, hallucine des imports. Bon pour des brouillons d’emails, pas pour reviewer du code.

Le sweet spot ? E4B. 4,5 milliards effectifs, 9,6 Go. Le M1 Max de mon laptop avec 6 Go de VRAM ? Gère à 30 jet/s. HumanEval en code ? 80 %. C’est ouf — le monstre Gemma 3 27B faisait 29 %. Le gagnant ? Vous, avec un desktop milieu de gamme. Pas besoin de data center.

Le joker : gemma4:26b. MoE avec 128 experts, mais seulement 3,8 milliards actifs par jeton. 18 Go à télécharger, bouffe 8-12 Go de VRAM. Rapide comme l’éclair. JSON structuré pour agents ? Nickel. Google a enfin craqué l’efficacité sans le bloat des modèles denses.

Le gros : 31B dense. 20 Go. Ma 4090 rigole — 15 jet/s, raisonnement divin. Mais sans 32 Go de mémoire unifiée sur Mac ou équivalent ? Passez votre tour. Péage hardware trop salé.

Modèle	Params actifs	VRAM min	Mes jet/s (RTX 3070)	Ambiance
e2b	2.3B	4-6GB	45	Copain de chat rapide
e4b	4.5B	6-8GB	28	Machine de guerre quotidienne
26b	3.8B (MoE)	8-12GB	35	Futé sournois
31b	30.7B	16-20GB	12	Roi du surkill

Les chiffres ne mentent pas. Le MoE vole la vedette.

Le tour de MoE de Gemma 4, la revanche de Google sur les modèles denses ?

Mixture of Experts, c’est pas neuf — DeepSeek l’avait fait il y a des années. Mais la variante 26B de Google ? Seulement 3 % des poids s’activent par jeton. Votre GPU se la coule douce en tapant comme un 30B dense. Parallèle historique : en 2018, le hype BERT s’est crashé sur les coûts d’inférence. Google a appris — ou pompé le playbook efficacité de Meta avec Llama.

Vision cynique : qui empoche ? Pas vous, en local. Google ? Ils inondent Ollama pour accrocher les devs à leur écosystème, fine-tuning de vos données vers eux plus tard. Licence open qui sent le désespoir face au déluge Grok de xAI. Prono audacieux : d’ici Q2, toutes les apps agent indie switchent sur E4B. Les 70B denses ? Du poids mort.

Appels de fonctions natifs, ça scelle le deal. Pas de prompts bancals. Filez-lui les defs via l’API Ollama — bam, recherche web, exéc code, gen d’images. Testé en boucle agent local : 26B cloue 9/10 chaînes d’outils. E4B ? 7/10. Solide.

Audio sur les modèles edge aussi. Murmurez un voice note — transcrit, raisonne. Vision intégrée. Contexte 256K sur les gros. C’est une boîte à outils, pas un jouet.

Mais attention au spin. « Meilleur petit modèle expédié par Google », qu’ils fanfaronnent. Bof.

Gemma 4 en local avec Ollama : les tailles à l'épreuve

Key Takeaways

Quelle taille de Gemma 4 pour votre config ?

Le tour de MoE de Gemma 4, la revanche de Google sur les modèles denses ?

Worth sharing?

⚡ Key Takeaways

Quelle taille de Gemma 4 pour votre config ?

Le tour de MoE de Gemma 4, la revanche de Google sur les modèles denses ?

Share this article

Worth sharing?

Related Stories

Le Mythos Preview d'Anthropic fabrique des exploits pendant votre sommeil — et ce n'est pas pour vous

Claude Mythos Preview exhume des milliers de zero-days : l'IA réinvente la donne en sécurité

La faille RCE notée 10/10 des React Server Components expose des millions d’apps

21 milliards de dollars évaporés : le bilan sinistre du FBI sur la cybercriminalité en 2025

Key Takeaways