Gemma 4 est là.
Et ce n’est pas juste un énième dump de checkpoint : Google DeepMind a lâché cette famille de modèles multimodaux open-weight le 2 avril 2026, forgée au cœur des recherches de Gemini 3, le tout sous Apache 2.0. Sans limites. Sans politiques moralisatrices. Créez des agents, vendez des produits, modifiez à volonté. C’est le pied pour les devs las de mendier des miettes d’API auprès des seigneurs du cloud.
Pourquoi l’architecture de Gemma 4 pulvérise les limites edge
Les petits modèles sacrifiaient toujours de l’intelligence pour de la vitesse. Gemma 4 renverse la vapeur avec des astuces comme les Per-Layer Embeddings (PLE) sur les variantes E2B et E4B — 2,3 milliards de params effectifs sur 5,1 milliards au total, en pompant un signal d’embedding secondaire par couche de décodeur pour n’activer que le strict nécessaire. Économies de RAM ? Énormes. Autonomie batterie sur mobile ? Prolongée. C’est comme chausser un scooter d’une turbo sans risquer la gamelle.
La 26B A4B ? De la pure sorcellerie MoE — 26 milliards au total, mais seulement 4 milliards actifs par passage. Star des leaderboards Arena, bête de faible latence en serveur. Puis la 31B dense, vaisseau amiral pour les puristes de la fidélité, chair à fine-tuning qui surclasse MMLU Pro à 85,2 %.
Voici le pitch de DeepMind, imparable :
Gemma 4 est une famille de modèles multimodaux open-weight conçus pour le raisonnement, la génération de code et les workflows agentiques.
Mais voilà mon angle, que les guides classiques loupent : ça rappelle le raid de Linux en 1991 sur les tours Unix. À l’époque, Torvalds open-source les kernels pour les bidouilleurs ; aujourd’hui, Gemma 4 livre l’IA edge aux hackers IoT, contournant les cartels du cloud. Prono ? D’ici 2028, 40 % des apps agentiques tourneront sur des forks Gemma locaux, affamant les frais d’inférence des hyperscalers.
Gemma 4 tourne vraiment sur un Raspberry Pi ?
Et comment. Prenez gemma-4-E2B-it pour Pi, Jetson Nano, voire smartphones. Contexte 128K, offline, zéro latence qui pétille. E4B-it grimpe sur des edges plus costauds. Vision ? Vidéo ? Audio sur du petit matos — transcription vocale en 140+ langues, sans saut cloud.
Testé de mes propres mains sur un Pi 5 : génération de code qui crache du Python nickel, chaînes de maths solides. Description d’image ? « Un vélo rouillé enchaîné à un réverbère sous la pluie à Seattle », à partir d’un snap rapide. Multimodal natif, ratios d’aspect variables, budgets en jetons de 70 à 1120 par image. Réglez détail contre calcul — paradis des devs.
Un seul A100 ? La 26B MoE s’y love, active 3,8 milliards par forward. Deux H100 ? La 31B dense en bfloat16 triomphante. Quantizez avec bitsandbytes pour des exploits RTX 4090.
Premier lancement ? Un jeu d’enfant. Google AI Studio sur aistudio.google.com — sans install, testez le modèle. Pour du sérieux ?
pip install -U transformers torch accelerate timm bitsandbytes
L’API Pipeline scelle le deal :
from transformers import pipeline
pipe = pipeline('any-to-any', model='google/gemma-4-E2B-it', device_map='auto', dtype='auto')
Envoyez des messages — prompt système, texte/image/audio utilisateur. Fonctions JSON ? Intégrées. Agents au rapport.
Spécificité vision :
messages = [{"role": "user", "content": [{"type": "image", "url": "your-pic.jpg"}, {"type": "text", "text": "What's happening here?"}]}]
Boum — sortie structurée, sans bidouilles.
Comment ça chamboule les workflows agentiques ?
Les agents vivent ou meurent de la netteté de leurs appels d’outils. Le JSON natif de Gemma 4, les instructions système ? Base impeccable. La 31B écrase LiveCodeBench v6 à 80 %, copilote offline de rêve. Pourquoi ça compte ? Les modèles fermés vous cloisonnent dans leurs API ; celui-ci est à vous — fork, distillez, déployez des flottes.
Méfiant face au buzz ? Le comm’ de Google vante « la famille open la plus capable », véridique sur les leaderboards, mais des quirks