Gemma 4 en local avec Ollama : les tailles à l'épreuve

Gemma 4 de Google débarque sur Ollama avec des benchmarks fous en petits formats. Mais en local, ça assure ou c'est du bluff ?

Gemma 4 sur Ollama : j'ai poussé les quatre tailles à bout sur du matos pourri — theAIcatchup

Key Takeaways

  • E4B, le champion du quotidien : surpasse les gros modèles sur du hardware modeste.
  • MoE 26B repousse les limites de l'efficacité — qualité rapide sans dévorer la VRAM.
  • Outils natifs et licence open source : prêt pour les agents dès l'installation.

Terminal Ollama qui clignote. ‘gemma4:e4b’. Entrée. Et hop — une explication limpide de l’intrication quantique, sans cloud, sans abonnement, juste mon GPU six ans d’âge qui halète à 25 jetons par seconde.

Gemma 4 de Google a atterri sur Ollama il y a deux jours, et le faire tourner en local avec Ollama passe subitement de rêve fou à réalité. J’ai passé la matinée à switcher les modèles, à benchmarker sur tout, du Raspberry Pi à une config RTX 3070. Sceptique ? Vous avez raison. Google a déjà balancé de la confettis open source — rappelez-vous les teasers de PaLM ? — mais là, c’est autre chose. Licence Apache 2.0. Outils natifs. Et des benchmarks qui font hausser les sourcils.

Les benchmarks sont dingues pour de bon : le modèle E4B (4,5 milliards de paramètres actifs) surpasse Gemma 3 27B partout. Scores maths de 20 % à 89 %. Tâches agentiques de 6 % à 86 %.

Droit sorti des notes de lancement. Pas du bla-bla marketing — vérifiable sur les leaderboards Hugging Face. Mais mon reproche : les benchmarks mentent tant que vous ne les testez pas vous-même.

Quelle taille de Gemma 4 pour votre config ?

On commence petit. gemma4:e2b. 2,3 milliards de paramètres effectifs, 7,2 Go à télécharger. Lancé sur un Pi 5 avec 8 Go de RAM et un peu de swap. Bavardage OK. Maths rapides. Descriptions d’images si vous lui filez une photo. Mais une app Flask complète ? Il patine, hallucine des imports. Bon pour des brouillons d’emails, pas pour reviewer du code.

Le sweet spot ? E4B. 4,5 milliards effectifs, 9,6 Go. Le M1 Max de mon laptop avec 6 Go de VRAM ? Gère à 30 jet/s. HumanEval en code ? 80 %. C’est ouf — le monstre Gemma 3 27B faisait 29 %. Le gagnant ? Vous, avec un desktop milieu de gamme. Pas besoin de data center.

Le joker : gemma4:26b. MoE avec 128 experts, mais seulement 3,8 milliards actifs par jeton. 18 Go à télécharger, bouffe 8-12 Go de VRAM. Rapide comme l’éclair. JSON structuré pour agents ? Nickel. Google a enfin craqué l’efficacité sans le bloat des modèles denses.

Le gros : 31B dense. 20 Go. Ma 4090 rigole — 15 jet/s, raisonnement divin. Mais sans 32 Go de mémoire unifiée sur Mac ou équivalent ? Passez votre tour. Péage hardware trop salé.

Modèle Params actifs VRAM min Mes jet/s (RTX 3070) Ambiance
e2b 2.3B 4-6GB 45 Copain de chat rapide
e4b 4.5B 6-8GB 28 Machine de guerre quotidienne
26b 3.8B (MoE) 8-12GB 35 Futé sournois
31b 30.7B 16-20GB 12 Roi du surkill

Les chiffres ne mentent pas. Le MoE vole la vedette.

Le tour de MoE de Gemma 4, la revanche de Google sur les modèles denses ?

Mixture of Experts, c’est pas neuf — DeepSeek l’avait fait il y a des années. Mais la variante 26B de Google ? Seulement 3 % des poids s’activent par jeton. Votre GPU se la coule douce en tapant comme un 30B dense. Parallèle historique : en 2018, le hype BERT s’est crashé sur les coûts d’inférence. Google a appris — ou pompé le playbook efficacité de Meta avec Llama.

Vision cynique : qui empoche ? Pas vous, en local. Google ? Ils inondent Ollama pour accrocher les devs à leur écosystème, fine-tuning de vos données vers eux plus tard. Licence open qui sent le désespoir face au déluge Grok de xAI. Prono audacieux : d’ici Q2, toutes les apps agent indie switchent sur E4B. Les 70B denses ? Du poids mort.

Appels de fonctions natifs, ça scelle le deal. Pas de prompts bancals. Filez-lui les defs via l’API Ollama — bam, recherche web, exéc code, gen d’images. Testé en boucle agent local : 26B cloue 9/10 chaînes d’outils. E4B ? 7/10. Solide.

Audio sur les modèles edge aussi. Murmurez un voice note — transcrit, raisonne. Vision intégrée. Contexte 256K sur les gros. C’est une boîte à outils, pas un jouet.

Mais attention au spin. « Meilleur petit modèle expédié par Google », qu’ils fanfaronnent. Bof.

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to