96 Token pro Sekunde. Auf Consumer-Hardware. Gemma 4 kam nicht erst gestern – vorm Mittag fixt’s echte Bugs in meinem Code.
Googles neuestes Open-Source-Modell. Beeindruckende Specs auf dem Papier. Aber Papers lügen. Oder hypen zumindest. Ich zünde mein Home-Lab an – zwei NVIDIA RTX 5060 Ti, insgesamt 32 GByte VRAM – und das Ding brummt mit Geschwindigkeiten, die offizielle Benchmarks alt aussehen lassen.
Der Clou: Stock-llama.cpp? Absturz pur. ‘Unknown model architecture: gemma4.’ Kein Wunder. Google ist wieder mal voraus. Oder bildet’s sich ein.
Warum selbst llama.cpp bauen?
CUDA-Image erst probiert. Fehlanzeige. Von HEAD aus selbst kompiliert. Kaniko-Job im Cluster. Fünfzehn Minuten später: Custom-Image im Registry. Kein GitHub-Actions-Tanz. Keine Cloud-Rechnungen.
Dockerfile? Simpel. llama.cpp master klonen, cmake mit CUDA für Ampere und Blackwell. SM 86;120. Hochgeladen auf denselben Kubernetes, der die Inferenz stemmt. Alles selbst gehostet. Wir schreiben 2024 – warum anderen euren ML-Stack anvertrauen?
Deploy-Befehl: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Modell von Hugging Face, Q4_K_M bei 15,6 GByte. Flash Attention, Jinja-Templating, 32K-Kontext. Operator erledigt den Kubernetes-Dreck. Health-Probes. OpenAI-Endpoint. Fertig.
Drei Minuten vom Befehl zum ersten Token. Meist Download. Dann – zack. 96 Token/s Generierung. 128 Token/s Prompts. Aggregierter Throughput? 170 unter Last. Null Fehler. P50-Latenz bei 2 Sekunden.
Zum Vergleich: Generische Benchmarks versprechen für Gemma 4 26B-A4B ‘über 40 Token/s auf Consumer-Hardware’. Wir knacken 96 Token/s bei Einzelrequest und 170 Token/s Aggregate unter Concurrent-Load.
Das ist der Flex des Original-Posters. Und er stimmt. MoE-Magie – nur 4 Milliarden aktive Parameter pro Token. Dual-GPUs teilen die Last wie Profis. Offizielle Zahlen? Lacher.
Aber Speed ohne Hirn ist nix. Ich werfe echte Bugs rein. Aus meinem eigenen Projekt. Kubernetes-Rolling-Updates hängen bei GPUs. Neuer Pod kriegt keine Ressourcen; alter klammert sich fest wie ein Ex.
Gemma 4? Trifft ins Schwarze. ‘Recreate-Strategie statt RollingUpdate nutzen. Bedingt auf GPU-Anzahl.’ Chain-of-Thought-Reasoning. Edge-Cases abgehakt. Kompletter YAML-Patch. 10,6 Sekunden für 1024 Token.
Nächstes: Orphaned Endpoints nach InferenceService-Löschung. Output? Produktions-Go-Code. UnregisterEndpoint-Methode. DNS-Säuberung. Service/Endpoint-Cleanup. NotFound-Handling. Logs. Punktgenau.
11,1 Sekunden.
Tests? Passt exakt zu meiner Gomega-Suite. BeforeEach. ContainElements. NotTo(ContainElement). Vier Fälle. 12,3 Sekunden.
Beeindruckend. Nicht Claude-Niveau. Reasoning wackelt bei kniffligen Multi-Steps. Manchmal abbruch bei Limits. Aber gut genug für 80 Prozent der Dev-Dröhnerei.
Läuft Gemma 4 auf eurem Gaming-Rig?
Kurz: Ja. Bei 32 GByte VRAM. Mein Ryzen 9, Ubuntu 24.04, MicroK8s. NVIDIA 590-Treiber. Auf eine 4090 skalieren? Immer noch machbar. Q4-Quant hält’s schlank.
Der echte Win: Distanz von ‘Google kündigt an’ bis ‘euer Hardware brummt’ schrumpft auf Stunden. Keine Wochen warten auf quantisierte GGUF-Ports oder Enterprise-Distros.
Googles PR-Gequatsche? ‘Open Models für alle!’ Süß. Aber die wissen: Die meisten Devs bauen nicht von Source. Oder managen K8s-Operatoren. Das ist der Graben – subtile Inkompetenz-Barriere.
Ich mach’s trotzdem. LLMKube übernimmt den Ops. Ein CRD fürs Modell, eins für den Service. Kein Babysitten.
Mein persönlicher Groll als Prognose: Das ist der Homebrew-Moment für AI-Inferenz. Erinnert ihr an frühes CUDA? NVIDIA liefert Binaries; Hacker brauen selbst. GPU-Revolution entfacht. Gemma 4 dasselbe. Devs forken, quantisieren, optimieren lokal. Cloud-Riesen wie Anthropic? Jammern über ‘Safety’, während wir ihre 20-Dollar-API-Requests umlaufen.
Mutige Wette: Bis Jahresende wechseln 50 Prozent Indie-Devs zu lokalen MoE-Biestern wie diesem. Stromkosten? 0,02 Dollar pro Million Token. Malt euch das bei Grok aus.
Warum zerlegt das offizielle Benchmarks?
Ta