Terminal Ollama qui clignote. ‘gemma4:e4b’. Entrée. Et hop — une explication limpide de l’intrication quantique, sans cloud, sans abonnement, juste mon GPU six ans d’âge qui halète à 25 jetons par seconde.
Gemma 4 de Google a atterri sur Ollama il y a deux jours, et le faire tourner en local avec Ollama passe subitement de rêve fou à réalité. J’ai passé la matinée à switcher les modèles, à benchmarker sur tout, du Raspberry Pi à une config RTX 3070. Sceptique ? Vous avez raison. Google a déjà balancé de la confettis open source — rappelez-vous les teasers de PaLM ? — mais là, c’est autre chose. Licence Apache 2.0. Outils natifs. Et des benchmarks qui font hausser les sourcils.
Les benchmarks sont dingues pour de bon : le modèle E4B (4,5 milliards de paramètres actifs) surpasse Gemma 3 27B partout. Scores maths de 20 % à 89 %. Tâches agentiques de 6 % à 86 %.
Droit sorti des notes de lancement. Pas du bla-bla marketing — vérifiable sur les leaderboards Hugging Face. Mais mon reproche : les benchmarks mentent tant que vous ne les testez pas vous-même.
Quelle taille de Gemma 4 pour votre config ?
On commence petit. gemma4:e2b. 2,3 milliards de paramètres effectifs, 7,2 Go à télécharger. Lancé sur un Pi 5 avec 8 Go de RAM et un peu de swap. Bavardage OK. Maths rapides. Descriptions d’images si vous lui filez une photo. Mais une app Flask complète ? Il patine, hallucine des imports. Bon pour des brouillons d’emails, pas pour reviewer du code.
Le sweet spot ? E4B. 4,5 milliards effectifs, 9,6 Go. Le M1 Max de mon laptop avec 6 Go de VRAM ? Gère à 30 jet/s. HumanEval en code ? 80 %. C’est ouf — le monstre Gemma 3 27B faisait 29 %. Le gagnant ? Vous, avec un desktop milieu de gamme. Pas besoin de data center.
Le joker : gemma4:26b. MoE avec 128 experts, mais seulement 3,8 milliards actifs par jeton. 18 Go à télécharger, bouffe 8-12 Go de VRAM. Rapide comme l’éclair. JSON structuré pour agents ? Nickel. Google a enfin craqué l’efficacité sans le bloat des modèles denses.
Le gros : 31B dense. 20 Go. Ma 4090 rigole — 15 jet/s, raisonnement divin. Mais sans 32 Go de mémoire unifiée sur Mac ou équivalent ? Passez votre tour. Péage hardware trop salé.
| Modèle | Params actifs | VRAM min | Mes jet/s (RTX 3070) | Ambiance |
|---|---|---|---|---|
| e2b | 2.3B | 4-6GB | 45 | Copain de chat rapide |
| e4b | 4.5B | 6-8GB | 28 | Machine de guerre quotidienne |
| 26b | 3.8B (MoE) | 8-12GB | 35 | Futé sournois |
| 31b | 30.7B | 16-20GB | 12 | Roi du surkill |
Les chiffres ne mentent pas. Le MoE vole la vedette.
Le tour de MoE de Gemma 4, la revanche de Google sur les modèles denses ?
Mixture of Experts, c’est pas neuf — DeepSeek l’avait fait il y a des années. Mais la variante 26B de Google ? Seulement 3 % des poids s’activent par jeton. Votre GPU se la coule douce en tapant comme un 30B dense. Parallèle historique : en 2018, le hype BERT s’est crashé sur les coûts d’inférence. Google a appris — ou pompé le playbook efficacité de Meta avec Llama.
Vision cynique : qui empoche ? Pas vous, en local. Google ? Ils inondent Ollama pour accrocher les devs à leur écosystème, fine-tuning de vos données vers eux plus tard. Licence open qui sent le désespoir face au déluge Grok de xAI. Prono audacieux : d’ici Q2, toutes les apps agent indie switchent sur E4B. Les 70B denses ? Du poids mort.
Appels de fonctions natifs, ça scelle le deal. Pas de prompts bancals. Filez-lui les defs via l’API Ollama — bam, recherche web, exéc code, gen d’images. Testé en boucle agent local : 26B cloue 9/10 chaînes d’outils. E4B ? 7/10. Solide.
Audio sur les modèles edge aussi. Murmurez un voice note — transcrit, raisonne. Vision intégrée. Contexte 256K sur les gros. C’est une boîte à outils, pas un jouet.
Mais attention au spin. « Meilleur petit modèle expédié par Google », qu’ils fanfaronnent. Bof.