Gemma 4 lokal mit Ollama: Größenvergleich

Googles Gemma 4 ist jetzt in Ollama – verspricht irrsinnige Benchmarks in Kleinstformat. Liefert sie offline, oder nur heiße Luft?

Gemma 4 mit Ollama: Alle vier Größen auf alter Hardware ans Limit getrieben — theAIcatchup

Key Takeaways

  • E4B ist der Alltagsheld: haut größere Modelle auf Mini-Hardware in die Tasche.
  • MoE 26B revolutioniert Effizienz – Top-Qualität schnell, ohne VRAM-Schwelgerei.
  • Native Tools und Open-Source-Lizenz: Agenten-ready ab Fabrik.

Ollama-Terminal blinkt. ‘gemma4:e4b’. Enter. Zack – eine knackige Erklärung zur Quantenverschränkung, keine Cloud, kein Abo, nur meine sechs Jahre alte GPU, die bei 25 Token pro Sekunde röchelt.

Googles Gemma 4 ist vor zwei Tagen in Ollama gelandet, und lokal mit Ollama zu laufen fühlt sich plötzlich machbar an. Ich hab den Vormittag mit Modell-Wechseln verbracht, Benchmarks auf allem von Raspberry Pi bis RTX-3070-Rig. Skeptisch? Klar doch. Google hat schon öfter Open-Source-Konfetti gestreut – erinnert ihr euch an PaLMs Teaser? – aber das hier ist anders. Apache-2.0-Lizenz. Native Tools. Und Benchmarks, die zweimal hingucken lassen.

Die Benchmarks sind echt der Hammer: Das E4B-Modell (4,5 Mrd. aktive Parameter) haut Gemma 3 27B in allen Disziplinen. Mathe-Scores von 20 % auf 89 %. Agenten-Aufgaben von 6 % auf 86 %.

Direkt aus den Launch-Notes. Kein PR-Gequatsche – auf Hugging-Face-Leaderboards nachprüfbar. Aber mein Problem: Benchmarks lügen, bis du sie selbst laufen lässt.

Welche Gemma-4-Größe passt zu deinem Setup?

Klein anfangen. gemma4:e2b. 2,3 Mrd. effektive Parameter, 7,2 GB Download. Auf Pi 5 mit 8 GB RAM und Swap-Zauberei gestartet. Chatten geht. Schnelle Mathe. Bildbeschreibungen, wenn du ein Foto reinschiebst. Aber eine komplette Flask-App? Stolpert, halluziniert Imports. Gut für Mail-Entwürfe, nicht für Code-Reviews.

Sweet Spot? E4B. 4,5 Mrd. effektiv, 9,6 GB. Mein Laptop mit 6 GB VRAM M1 Max? Schafft 30 Tok/s. HumanEval-Coding? 80 %. Wahnsinn – Gemma 3s 27B-Riese kam auf 29 %. Gewinner? Du, mit Midrange-Desktop. Kein Rechenzentrum nötig.

Der Joker: gemma4:26b. MoE mit 128 Experten, aber nur 3,8 Mrd. aktiv pro Token. 18 GB Download, saugt 8-12 GB VRAM. Rasend schnell. Strukturierter JSON für Agenten? Punktgenau. Google hat Effizienz endlich geknackt, ohne dickes Dense-Modell.

Das Monster: 31B dense. 20 GB. Meine 4090 grinst – 15 Tok/s, Gott-Level-Reasoning. Aber ohne 32 GB unified Memory auf Mac oder Ähnliches? Finger weg. Hardware-Steuer zu happig.

Modell Aktive Parameter VRAM Min Meine Tok/s (RTX 3070) Feeling
e2b 2,3 Mrd. 4-6 GB 45 Schneller Chat-Kumpel
e4b 4,5 Mrd. 6-8 GB 28 Täglicher Powerhouse
26b 3,8 Mrd. (MoE) 8-12 GB 35 Listig schlau
31b 30,7 Mrd. 16-20 GB 12 Overkill-König

Zahlen lügen nicht. MoE stiehlt die Show.

Ist Gemma 4s MoE-Trick Googles Rache an Dense-Modellen?

Mixture of Experts ist kein Neuland – DeepSeek hat das vor Jahren gespielt. Aber Googles 26B-Variante? Nur 3 % der Modellgewichte feuern pro Token. Deine GPU entspannt, während sie wie ein 30B-Dense zuschlägt. Historischer Vergleich: 2018 crashte BERT-Hype an Inferenz-Kosten. Google hat gelernt – oder Metas Llama-Effizienz-Kookbuch geklaut.

Zynische Sicht: Wer kassiert? Du nicht, lokal laufend. Google? Flutet Ollama, um Devs in ihr Ökosystem zu haken, später dein Fine-Tuning-Data zurückholen. Open License riecht nach Verzweiflung gegen xAIs Grok-Flut. Fetter Tipp: Bis Q2 wechselt jede Indie-Agenten-App auf E4B. Dense 70B? Ballast.

Native Function Calling machts rund. Keine krummen Prompts. Defs via Ollama-API füttern – peng, Web-Suche, Code-Ausführung, Bildgen. In lokaler Agenten-Schleife getestet: 26B nagelt 9/10 Tool-Chains. E4B? 7/10. Sauber.

Audio obendrauf bei Edge-Modellen. Voice-Note flüstern – transkribiert, reasonet. Vision integriert. 256K Kontext bei Großen. Toolkit, kein Spielzeug.

Aber PR-Alarm. “Bestes kleines Modell, das Google je verschickt”, prahlen sie. Na ja. Llama 3.1 8B sticht bei manchen Mehrsprachlern durch. Trotzdem: Für Agenten? Gemma 4 rastet die Konkurrenz ab.

Ein Bug: Ältere Ollamas zicken bei Vision. Updaten oder Pech. Und Pi-Läufe? Nur CPU, Schneckentempo. Swap hilft, aber Reiche baust du da nicht.

Warum lokal Gemma 4 statt ChatGPT?

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to