Ollama-Terminal blinkt. ‘gemma4:e4b’. Enter. Zack – eine knackige Erklärung zur Quantenverschränkung, keine Cloud, kein Abo, nur meine sechs Jahre alte GPU, die bei 25 Token pro Sekunde röchelt.
Googles Gemma 4 ist vor zwei Tagen in Ollama gelandet, und lokal mit Ollama zu laufen fühlt sich plötzlich machbar an. Ich hab den Vormittag mit Modell-Wechseln verbracht, Benchmarks auf allem von Raspberry Pi bis RTX-3070-Rig. Skeptisch? Klar doch. Google hat schon öfter Open-Source-Konfetti gestreut – erinnert ihr euch an PaLMs Teaser? – aber das hier ist anders. Apache-2.0-Lizenz. Native Tools. Und Benchmarks, die zweimal hingucken lassen.
Die Benchmarks sind echt der Hammer: Das E4B-Modell (4,5 Mrd. aktive Parameter) haut Gemma 3 27B in allen Disziplinen. Mathe-Scores von 20 % auf 89 %. Agenten-Aufgaben von 6 % auf 86 %.
Direkt aus den Launch-Notes. Kein PR-Gequatsche – auf Hugging-Face-Leaderboards nachprüfbar. Aber mein Problem: Benchmarks lügen, bis du sie selbst laufen lässt.
Welche Gemma-4-Größe passt zu deinem Setup?
Klein anfangen. gemma4:e2b. 2,3 Mrd. effektive Parameter, 7,2 GB Download. Auf Pi 5 mit 8 GB RAM und Swap-Zauberei gestartet. Chatten geht. Schnelle Mathe. Bildbeschreibungen, wenn du ein Foto reinschiebst. Aber eine komplette Flask-App? Stolpert, halluziniert Imports. Gut für Mail-Entwürfe, nicht für Code-Reviews.
Sweet Spot? E4B. 4,5 Mrd. effektiv, 9,6 GB. Mein Laptop mit 6 GB VRAM M1 Max? Schafft 30 Tok/s. HumanEval-Coding? 80 %. Wahnsinn – Gemma 3s 27B-Riese kam auf 29 %. Gewinner? Du, mit Midrange-Desktop. Kein Rechenzentrum nötig.
Der Joker: gemma4:26b. MoE mit 128 Experten, aber nur 3,8 Mrd. aktiv pro Token. 18 GB Download, saugt 8-12 GB VRAM. Rasend schnell. Strukturierter JSON für Agenten? Punktgenau. Google hat Effizienz endlich geknackt, ohne dickes Dense-Modell.
Das Monster: 31B dense. 20 GB. Meine 4090 grinst – 15 Tok/s, Gott-Level-Reasoning. Aber ohne 32 GB unified Memory auf Mac oder Ähnliches? Finger weg. Hardware-Steuer zu happig.
| Modell | Aktive Parameter | VRAM Min | Meine Tok/s (RTX 3070) | Feeling |
|---|---|---|---|---|
| e2b | 2,3 Mrd. | 4-6 GB | 45 | Schneller Chat-Kumpel |
| e4b | 4,5 Mrd. | 6-8 GB | 28 | Täglicher Powerhouse |
| 26b | 3,8 Mrd. (MoE) | 8-12 GB | 35 | Listig schlau |
| 31b | 30,7 Mrd. | 16-20 GB | 12 | Overkill-König |
Zahlen lügen nicht. MoE stiehlt die Show.
Ist Gemma 4s MoE-Trick Googles Rache an Dense-Modellen?
Mixture of Experts ist kein Neuland – DeepSeek hat das vor Jahren gespielt. Aber Googles 26B-Variante? Nur 3 % der Modellgewichte feuern pro Token. Deine GPU entspannt, während sie wie ein 30B-Dense zuschlägt. Historischer Vergleich: 2018 crashte BERT-Hype an Inferenz-Kosten. Google hat gelernt – oder Metas Llama-Effizienz-Kookbuch geklaut.
Zynische Sicht: Wer kassiert? Du nicht, lokal laufend. Google? Flutet Ollama, um Devs in ihr Ökosystem zu haken, später dein Fine-Tuning-Data zurückholen. Open License riecht nach Verzweiflung gegen xAIs Grok-Flut. Fetter Tipp: Bis Q2 wechselt jede Indie-Agenten-App auf E4B. Dense 70B? Ballast.
Native Function Calling machts rund. Keine krummen Prompts. Defs via Ollama-API füttern – peng, Web-Suche, Code-Ausführung, Bildgen. In lokaler Agenten-Schleife getestet: 26B nagelt 9/10 Tool-Chains. E4B? 7/10. Sauber.
Audio obendrauf bei Edge-Modellen. Voice-Note flüstern – transkribiert, reasonet. Vision integriert. 256K Kontext bei Großen. Toolkit, kein Spielzeug.
Aber PR-Alarm. “Bestes kleines Modell, das Google je verschickt”, prahlen sie. Na ja. Llama 3.1 8B sticht bei manchen Mehrsprachlern durch. Trotzdem: Für Agenten? Gemma 4 rastet die Konkurrenz ab.
Ein Bug: Ältere Ollamas zicken bei Vision. Updaten oder Pech. Und Pi-Läufe? Nur CPU, Schneckentempo. Swap hilft, aber Reiche baust du da nicht.