Gemma 4: 96 Token/s auf Consumer-Hardware

96 Token pro Sekunde. Gemma 4 zerlegt Kubernetes-Bugreports auf meinem Dual-RTX-Setup. Googles Open-Source-Modell macht aus 'warten und hoffen' 'deployen und debuggen'.

Gemma 4: 96 Token/s auf Dual-RTX-Karten – Kubernetes-Bugs vorm Mittag gefixt — theAIcatchup

Key Takeaways

  • Gemma 4 knackt 96 Token/s auf Dual-RTX-Consumer-Hardware – offizielle Benchmarks pulverisiert.
  • Vom Release bis Produktions-Inferenz: 2 Stunden, inklusive custom llama.cpp-Build.
  • Echte Kubernetes-Bugfixes – produktionsreifer Go- und YAML-Code in Sekunden.

96 Token pro Sekunde. Auf Consumer-Hardware. Gemma 4 kam nicht erst gestern – vorm Mittag fixt’s echte Bugs in meinem Code.

Googles neuestes Open-Source-Modell. Beeindruckende Specs auf dem Papier. Aber Papers lügen. Oder hypen zumindest. Ich zünde mein Home-Lab an – zwei NVIDIA RTX 5060 Ti, insgesamt 32 GByte VRAM – und das Ding brummt mit Geschwindigkeiten, die offizielle Benchmarks alt aussehen lassen.

Der Clou: Stock-llama.cpp? Absturz pur. ‘Unknown model architecture: gemma4.’ Kein Wunder. Google ist wieder mal voraus. Oder bildet’s sich ein.

Warum selbst llama.cpp bauen?

CUDA-Image erst probiert. Fehlanzeige. Von HEAD aus selbst kompiliert. Kaniko-Job im Cluster. Fünfzehn Minuten später: Custom-Image im Registry. Kein GitHub-Actions-Tanz. Keine Cloud-Rechnungen.

Dockerfile? Simpel. llama.cpp master klonen, cmake mit CUDA für Ampere und Blackwell. SM 86;120. Hochgeladen auf denselben Kubernetes, der die Inferenz stemmt. Alles selbst gehostet. Wir schreiben 2024 – warum anderen euren ML-Stack anvertrauen?

Deploy-Befehl: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Modell von Hugging Face, Q4_K_M bei 15,6 GByte. Flash Attention, Jinja-Templating, 32K-Kontext. Operator erledigt den Kubernetes-Dreck. Health-Probes. OpenAI-Endpoint. Fertig.

Drei Minuten vom Befehl zum ersten Token. Meist Download. Dann – zack. 96 Token/s Generierung. 128 Token/s Prompts. Aggregierter Throughput? 170 unter Last. Null Fehler. P50-Latenz bei 2 Sekunden.

Zum Vergleich: Generische Benchmarks versprechen für Gemma 4 26B-A4B ‘über 40 Token/s auf Consumer-Hardware’. Wir knacken 96 Token/s bei Einzelrequest und 170 Token/s Aggregate unter Concurrent-Load.

Das ist der Flex des Original-Posters. Und er stimmt. MoE-Magie – nur 4 Milliarden aktive Parameter pro Token. Dual-GPUs teilen die Last wie Profis. Offizielle Zahlen? Lacher.

Aber Speed ohne Hirn ist nix. Ich werfe echte Bugs rein. Aus meinem eigenen Projekt. Kubernetes-Rolling-Updates hängen bei GPUs. Neuer Pod kriegt keine Ressourcen; alter klammert sich fest wie ein Ex.

Gemma 4? Trifft ins Schwarze. ‘Recreate-Strategie statt RollingUpdate nutzen. Bedingt auf GPU-Anzahl.’ Chain-of-Thought-Reasoning. Edge-Cases abgehakt. Kompletter YAML-Patch. 10,6 Sekunden für 1024 Token.

Nächstes: Orphaned Endpoints nach InferenceService-Löschung. Output? Produktions-Go-Code. UnregisterEndpoint-Methode. DNS-Säuberung. Service/Endpoint-Cleanup. NotFound-Handling. Logs. Punktgenau.

11,1 Sekunden.

Tests? Passt exakt zu meiner Gomega-Suite. BeforeEach. ContainElements. NotTo(ContainElement). Vier Fälle. 12,3 Sekunden.

Beeindruckend. Nicht Claude-Niveau. Reasoning wackelt bei kniffligen Multi-Steps. Manchmal abbruch bei Limits. Aber gut genug für 80 Prozent der Dev-Dröhnerei.

Läuft Gemma 4 auf eurem Gaming-Rig?

Kurz: Ja. Bei 32 GByte VRAM. Mein Ryzen 9, Ubuntu 24.04, MicroK8s. NVIDIA 590-Treiber. Auf eine 4090 skalieren? Immer noch machbar. Q4-Quant hält’s schlank.

Der echte Win: Distanz von ‘Google kündigt an’ bis ‘euer Hardware brummt’ schrumpft auf Stunden. Keine Wochen warten auf quantisierte GGUF-Ports oder Enterprise-Distros.

Googles PR-Gequatsche? ‘Open Models für alle!’ Süß. Aber die wissen: Die meisten Devs bauen nicht von Source. Oder managen K8s-Operatoren. Das ist der Graben – subtile Inkompetenz-Barriere.

Ich mach’s trotzdem. LLMKube übernimmt den Ops. Ein CRD fürs Modell, eins für den Service. Kein Babysitten.

Mein persönlicher Groll als Prognose: Das ist der Homebrew-Moment für AI-Inferenz. Erinnert ihr an frühes CUDA? NVIDIA liefert Binaries; Hacker brauen selbst. GPU-Revolution entfacht. Gemma 4 dasselbe. Devs forken, quantisieren, optimieren lokal. Cloud-Riesen wie Anthropic? Jammern über ‘Safety’, während wir ihre 20-Dollar-API-Requests umlaufen.

Mutige Wette: Bis Jahresende wechseln 50 Prozent Indie-Devs zu lokalen MoE-Biestern wie diesem. Stromkosten? 0,02 Dollar pro Million Token. Malt euch das bei Grok aus.

Warum zerlegt das offizielle Benchmarks?

Ta

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to