Gemma 4: 96 tok/s su hardware consumer

96 token al secondo. Ecco Gemma 4 che divora report di bug Kubernetes sul mio setup con due RTX. Il modello open di Google ha trasformato 'aspetta e spera' in 'deploya e debugga subito.'

Gemma 4: 96 tok/s su due RTX, e i miei bug Kubernetes sistemati a pranzo — theAIcatchup

Key Takeaways

  • Gemma 4 centra 96 tok/s su hardware consumer dual RTX, annientando i benchmark ufficiali.
  • Dal rilascio all'inferenza in produzione: 2 ore, build custom llama.cpp inclusa.
  • Fix reali a bug Kubernetes—codice Go e YAML pronti per produzione in secondi.

96 token al secondo. Su hardware consumer. Gemma 4 non è arrivata ieri: entro pranzo, risolveva bug veri nel mio codice.

L’ultima mossa open di Google. Specchietti per le allodole sulla carta. Ma i paper ingannano. O almeno gonfiano. Ho acceso il mio lab casalingo — due NVIDIA RTX 5060 Ti, 32GB di VRAM totali — e l’ho fatta volare a velocità che polverizzano i benchmark ufficiali.

Il punto. llama.cpp stock? Crash totale. ‘Architettura modello sconosciuta: gemma4.’ Normale. Google è sempre un passo avanti. O crede di esserlo.

Perché compilare il tuo llama.cpp da zero?

Prima l’immagine CUDA ufficiale. Niente. Io stesso l’ho compilato da HEAD. Un job Kaniko sul cluster. Quindici minuti, e l’immagine custom era nel mio registry. Niente balletti con GitHub Actions. Niente bollette cloud.

Dockerfile? Semplice. Clona il master di llama.cpp, cmake con CUDA per Ampere e Blackwell. SM 86 e 120. Pushato sullo stesso Kubernetes che gestisce l’inferenza. Tutto self-hosted. È il 2024 — perché fidarti di estranei per il tuo stack ML?

Comando deploy: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Modello da Hugging Face, Q4_K_M da 15.6GB. Flash attention, template Jinja, contesto 32K. L’operator si occupa del lavoro sporco su Kubernetes. Probe di health check. Endpoint OpenAI. Fatto.

Tre minuti dal comando al primo token. Perlopiù download. Poi — bam. 96 tok/s in generazione. 128 tok/s sui prompt. Throughput complessivo? 170 sotto carico. Zero errori. Latenza P50 a 2 secondi.

Per fare un confronto, i benchmark generici in giro dicono che Gemma 4 26B-A4B “supera i 40 tok/s su hardware consumer.” Noi facciamo 96 tok/s su singola richiesta e 170 tok/s aggregati sotto carico concorrente.

È il vanto del post originale. E regge. Magia MoE — solo 4B parametri attivi per token. Due GPU che si dividono il carico da pro. Numeri ufficiali? Ridicoli.

Ma la velocità vale zero senza cervello. Le ho buttati addosso bug veri. Del mio progetto. Rolling update Kubernetes che si inceppano sulle GPU. Nuovo pod non prende risorse; il vecchio si aggrappa come un ex tossico.

Gemma 4? Ci ha azzeccato. ‘Usa strategia Recreate, non RollingUpdate. Condizionale sul numero di GPU.’ Ragionamento chain-of-thought. Casi limite coperti. Patch YAML completa. 10,6 secondi per 1024 token.

Poi: Endpoint orfani dopo delete di InferenceServices. Output? Codice Go da produzione. Metodo UnregisterEndpoint. Sanitizzazione DNS. Cleanup Service/Endpoint. Gestione NotFound. Log. Perfetto.

11,1 secondi.

Test? Match perfetto con la mia suite Gomega. BeforeEach. ContainElements. NotTo(ContainElement). Quattro casi. 12,3 secondi.

Notevole. Non al livello di Claude. Ragionamento che inciampa sui multi-step complessi. Taglia a metà pensiero a volte. Ma basta e avanza per l‘80% della noia da dev.

Gemma 4 sul tuo rig da gaming?

Risposta breve: Sì. Se hai 32GB di VRAM. Il mio Ryzen 9, Ubuntu 24.04, MicroK8s. Driver NVIDIA 590. Funziona su una 4090 sola? Ancora valida. Quant Q4 la tiene snella.

Il vero colpo? Dal ‘Google annuncia’ al ‘il tuo hardware ronza’ ci vogliono ore. Non settimane ad aspettare versioni GGUF quantizzate o distro enterprise.

Lo spin PR di Google? ‘Modelli open per tutti!’ Carino. Ma sanno che la maggior parte dei dev non compila da sorgente. Né gestisce operator K8s. È il loro fosso — incompetenza sottile.

Io l’ho fatto lo stesso. LLMKube si occupa delle ops. Un CRD per il modello, uno per il servizio. Niente baby-sitting.

Ecco il mio lamento-che-diventa-previsione: Questo è il momento Homebrew per l’inferenza AI. Ricordate CUDA primi tempi? NVIDIA buttava binari; hacker ne cuocevano di propri. Scatenata la rivoluzione GPU. Gemma 4 è uguale. I dev faranno fork, quantizzeranno, ottimizzeranno localmente. Giganti cloud come Anthropic? Piangeranno ‘sicurezza’ mentre gli giriamo intorno ai loro API da 20$ a richiesta.

Previsione azzardata: Fine anno, 50% dei dev indie molla LLM cloud per bestie MoE locali come questa. Bolletta elettrica? 0,02$ per milione di token. Provate a battere Gro

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to