Saniyede 96 token. Tüketici donanımında. Gemma 4 dün çıkmadı — öğlene kadar kod tabanımda gerçek hataları düzeltiyordu.
Google’ın son açık model sürümü. Kağıt üstünde etkileyici özellikler. Ama kağıtlar yalan söyler. Ya da en azından abartır. Ev laboratuvarımı ateşledim — iki NVIDIA RTX 5060 Ti kartı, toplam 32GB VRAM — ve resmi kıyaslamaları yerle bir eden hızlara ulaştı.
Şu var. Standart llama.cpp? Sert çakıldı. ‘Bilinmeyen model mimarisi: gemma4.’ Şaşırtıcı değil. Google her zamanki gibi önde. Ya da öyle sanıyor.
Neden Kendi llama.cpp Derlemenizi Hack’leyeceksiniz?
Önce CUDA imajını denedim. Hayır. HEAD’den kendim derledim. Kümede Kaniko işi. On beş dakika sonra özel imaj kayıtlımda. GitHub Actions dansı yok. Bulut faturası yok.
Dockerfile? Basit. llama.cpp master’ı klonla, Ampere ve Blackwell için CUDA’lı cmake. SM 86;120. Aynı Kubernetes’e ittim ki çıkarımı çalıştırıyor. Her şeyi kendi kendime barındırdım. 2024’teyiz — ML yığınınızı başkalarına neden emanet edesin?
Dağıtım komutu: llmkube deploy gemma4-26b –gpu –cuda –gpu-count 2. Model Hugging Face’ten, Q4_K_M 15.6GB. Flash attention, Jinja şablonlama, 32K bağlam. Operatör Kubernetes ağır işini hallediyor. Sağlık kontrolleri. OpenAI uç noktası. Bitti.
Komuttan ilk tokene üç dakika. Çoğu indirme. Sonra — pat. 96 tok/s üretim. 128 tok/s prompt. Toplam verim? Yük altında 170. Sıfır hata. P50 gecikme 2 saniye.
Karşılaştırma için, etraftaki genel kıyaslamalar Gemma 4 26B-A4B’nin “tüketici donanımında 40 tok/s’yi aştığını” söylüyor. Biz tek istekte 96 tok/s, eşzamanlı yük altında toplam 170 tok/s yapıyoruz.
Orijinal paylaşımın övünmesi bu. Ve gerçek. MoE sihri — token başına sadece 4B aktif parametre. Çift GPU yükü ustaca paylaştırıyor. Resmi rakamlar? Gülünç.
Ama hız zekasız değersiz. Gerçek hataları üstüne saldım. Kendi projemden. Kubernetes rolling güncellemeleri GPU’larda kilitleniyor. Yeni pod kaynak yakalayamıyor; eskisi kötü eski sevgili gibi yapışıyor.
Gemma 4? Tam isabet. ‘Recreate stratejisi kullan, RollingUpdate değil. GPU sayısına göre koşullu.’ Düşünce zinciri mantığı. Kenar durumlar kapsanmış. Tam YAML yaması. 1024 token için 10.6 saniye.
Sırada: InferenceServices sildikten sonra terk edilmiş Endpoints. Çıktı? Üretim Go kodu. UnregisterEndpoint metodu. DNS temizliği. Service/Endpoint temizliği. NotFound yönetimi. Loglar. Nokta atışı.
11.1 saniye.
Testler? Gomega suitimle birebir uydu. BeforeEach. ContainElements. NotTo(ContainElement). Dört vaka. 12.3 saniye.
Etkileyici. Claude seviyesinde değil. Karmaşık çok adımlarda mantık düşüyor. Sınırda bazen kesiyor. Ama geliştirme zahmetinin %80’i için yeterli.
Gemma 4 Oyun Rig’inizde Çalışır mı?
Kısa cevap: Evet. 32GB VRAM’iniz varsa. Benim Ryzen 9, Ubuntu 24.04, MicroK8s. NVIDIA 590 sürücüleri. Tek 4090’a inin? Hâlâ olur. Q4 kuantizasyon ince tutuyor.
Gerçek zafer? ‘Google duyurdu’dan ‘donanımınız vızıldıyor’a geçiş saatlere indi. Kuantize GGUF portları veya kurumsal dağıtımlar için haftalarca beklemek yok.
Google’ın PR lafı? ‘Herkes için açık modeller!’ Sevimli. Ama çoğu geliştiricinin kaynaktan derlemeyeceğini biliyorlar. Ya da K8s operatörlerini yönetmeyeceklerini. O hendek — ince beceriksizlik bariyeri.
Ben yine de yaptım. LLMKube operasyonları hallediyor. Modele bir CRD, servise bir CRD. Bakıcılık yok.
Benim özgün sızlanmam-tahminim: Bu, AI çıkarımı için Homebrew anı. Erken CUDA’yı hatırlayın? NVIDIA ikilileri attı; hacker’lar kendileri pişirdi. GPU devrimini tetikledi. Gemma 4 aynı. Geliştiriciler fork’layacak, kuantize edecek, yerel optimize edecek. Anthropic gibi bulut devleri ‘güvenlik’ diye sızlanırken $20/istek API’lerini sollayacağız.
Cesur tahmin: Yıl sonuna kadar bağımsız geliştiricilerin %50’si bulut LLM’leri bırakıp yerel MoE canavarlarına geçecek. Elektrik faturası? Milyon token başına $0.02. Grok’un fiyatını buna uydur bakalım.
Neden Resmi Kıyaslamaları Ezdi?
Tablolar yalan söylemez.
Üretim: 96 tok/s. Prompt: 128 tok/s. Model: 15.6GB. Verim: Toplam 170 tok/s. 1