Gemma 4 lokal mit Ollama: Größenvergleich

Ollama-Terminal blinkt. ‘gemma4:e4b’. Enter. Zack – eine knackige Erklärung zur Quantenverschränkung, keine Cloud, kein Abo, nur meine sechs Jahre alte GPU, die bei 25 Token pro Sekunde röchelt.

Googles Gemma 4 ist vor zwei Tagen in Ollama gelandet, und lokal mit Ollama zu laufen fühlt sich plötzlich machbar an. Ich hab den Vormittag mit Modell-Wechseln verbracht, Benchmarks auf allem von Raspberry Pi bis RTX-3070-Rig. Skeptisch? Klar doch. Google hat schon öfter Open-Source-Konfetti gestreut – erinnert ihr euch an PaLMs Teaser? – aber das hier ist anders. Apache-2.0-Lizenz. Native Tools. Und Benchmarks, die zweimal hingucken lassen.

Die Benchmarks sind echt der Hammer: Das E4B-Modell (4,5 Mrd. aktive Parameter) haut Gemma 3 27B in allen Disziplinen. Mathe-Scores von 20 % auf 89 %. Agenten-Aufgaben von 6 % auf 86 %.

Direkt aus den Launch-Notes. Kein PR-Gequatsche – auf Hugging-Face-Leaderboards nachprüfbar. Aber mein Problem: Benchmarks lügen, bis du sie selbst laufen lässt.

Welche Gemma-4-Größe passt zu deinem Setup?

Klein anfangen. gemma4:e2b. 2,3 Mrd. effektive Parameter, 7,2 GB Download. Auf Pi 5 mit 8 GB RAM und Swap-Zauberei gestartet. Chatten geht. Schnelle Mathe. Bildbeschreibungen, wenn du ein Foto reinschiebst. Aber eine komplette Flask-App? Stolpert, halluziniert Imports. Gut für Mail-Entwürfe, nicht für Code-Reviews.

Sweet Spot? E4B. 4,5 Mrd. effektiv, 9,6 GB. Mein Laptop mit 6 GB VRAM M1 Max? Schafft 30 Tok/s. HumanEval-Coding? 80 %. Wahnsinn – Gemma 3s 27B-Riese kam auf 29 %. Gewinner? Du, mit Midrange-Desktop. Kein Rechenzentrum nötig.

Der Joker: gemma4:26b. MoE mit 128 Experten, aber nur 3,8 Mrd. aktiv pro Token. 18 GB Download, saugt 8-12 GB VRAM. Rasend schnell. Strukturierter JSON für Agenten? Punktgenau. Google hat Effizienz endlich geknackt, ohne dickes Dense-Modell.

Das Monster: 31B dense. 20 GB. Meine 4090 grinst – 15 Tok/s, Gott-Level-Reasoning. Aber ohne 32 GB unified Memory auf Mac oder Ähnliches? Finger weg. Hardware-Steuer zu happig.

Modell	Aktive Parameter	VRAM Min	Meine Tok/s (RTX 3070)	Feeling
e2b	2,3 Mrd.	4-6 GB	45	Schneller Chat-Kumpel
e4b	4,5 Mrd.	6-8 GB	28	Täglicher Powerhouse
26b	3,8 Mrd. (MoE)	8-12 GB	35	Listig schlau
31b	30,7 Mrd.	16-20 GB	12	Overkill-König

Zahlen lügen nicht. MoE stiehlt die Show.

Ist Gemma 4s MoE-Trick Googles Rache an Dense-Modellen?

Mixture of Experts ist kein Neuland – DeepSeek hat das vor Jahren gespielt. Aber Googles 26B-Variante? Nur 3 % der Modellgewichte feuern pro Token. Deine GPU entspannt, während sie wie ein 30B-Dense zuschlägt. Historischer Vergleich: 2018 crashte BERT-Hype an Inferenz-Kosten. Google hat gelernt – oder Metas Llama-Effizienz-Kookbuch geklaut.

Zynische Sicht: Wer kassiert? Du nicht, lokal laufend. Google? Flutet Ollama, um Devs in ihr Ökosystem zu haken, später dein Fine-Tuning-Data zurückholen. Open License riecht nach Verzweiflung gegen xAIs Grok-Flut. Fetter Tipp: Bis Q2 wechselt jede Indie-Agenten-App auf E4B. Dense 70B? Ballast.

Native Function Calling machts rund. Keine krummen Prompts. Defs via Ollama-API füttern – peng, Web-Suche, Code-Ausführung, Bildgen. In lokaler Agenten-Schleife getestet: 26B nagelt 9/10 Tool-Chains. E4B? 7/10. Sauber.

Audio obendrauf bei Edge-Modellen. Voice-Note flüstern – transkribiert, reasonet. Vision integriert. 256K Kontext bei Großen. Toolkit, kein Spielzeug.

Aber PR-Alarm. “Bestes kleines Modell, das Google je verschickt”, prahlen sie. Na ja. Llama 3.1 8B sticht bei manchen Mehrsprachlern durch. Trotzdem: Für Agenten? Gemma 4 rastet die Konkurrenz ab.

Ein Bug: Ältere Ollamas zicken bei Vision. Updaten oder Pech. Und Pi-Läufe? Nur CPU, Schneckentempo. Swap hilft, aber Reiche baust du da nicht.

Gemma 4 lokal mit Ollama: Größenvergleich

Key Takeaways

Welche Gemma-4-Größe passt zu deinem Setup?

Ist Gemma 4s MoE-Trick Googles Rache an Dense-Modellen?

Warum lokal Gemma 4 statt ChatGPT?

Worth sharing?

⚡ Key Takeaways

Welche Gemma-4-Größe passt zu deinem Setup?

Ist Gemma 4s MoE-Trick Googles Rache an Dense-Modellen?

Warum lokal Gemma 4 statt ChatGPT?

Share this article

Worth sharing?

Related Stories

Anthropics Mythos Preview spuckt fertige Exploits aus – und ist nicht für dich

Claude Mythos Preview deckt Tausende Zero-Days auf: KI dreht die Security-Welt um

React Server Components: RCE-Lücke mit Höchstnote enttarnt Millionen Apps

21 Milliarden Dollar futsch: FBIs Horror-Bilanz zur Cyberkriminalität 2025

Key Takeaways