Ollama ile Gemma 4'ü Yerinde Çalıştır: Boyutları Karşılaştırdık

Ollama terminali yanıp sönüyor. ‘gemma4:e4b’. Enter’a bas. Ve işte orada — kuantum dolanıklığı hakkında net bir açıklama, bulut yok, abonelik yok, sadece altı yıllık GPU’m 25 token/saniye ile nefes nefese.

Google’ın Gemma 4’ü iki gün önce Ollama’ya indi ve Ollama ile Google’ın Gemma 4’ünü yerel çalıştırmak birden hayal olmaktan çıktı. Sabahı model değiştirerek, Raspberry Pi’dan RTX 3070’e kadar her şeyde kıyaslama yaparak geçirdim. Şüpheci miyim? Hem de nasıl. Google daha önce açık kaynak konfeti saçmıştı — PaLM’ın teaser’larını hatırlayın — ama bu sefer farklı. Apache 2.0 lisansı. Yerli araçlar. Ve çift bakış attıran kıyaslamalar.

Kıyaslamalar gerçekten çılgın: E4B modeli (4.5 milyar etkin parametre) Gemma 3 27B’yi her alanda yeniyor. Matematik skorları %20’den %89’a fırladı. Ajan görevleri %6’dan %86’ya.

Doğrudan lansman notlarından. PR lafı değil — Hugging Face lider tablolarında doğrulanmış. Ama benim takıntım şu: Kıyaslamalar kendin çalıştırmadan yalan söyler.

Hangi Gemma 4 Boyutu Senin Sisteme Uyar?

Küçükten başla. gemma4:e2b. 2.3 milyar etkin parametre, 7.2 GB indir. 8 GB RAM’li Pi 5’te swap dosyası hilesiyle çalıştırdım. Sohbetler iyi. Hızlı matematik. Resim tarifleri, bir fotoğraf verirsen. Ama tam bir Flask app mı istedin? Takılıyor, import’ları halüsinasyon yapıyor. E-posta taslakları için iyi, kod incelemeleri için değil.

Tatlı nokta? E4B. 4.5 milyar etkin, 9.6 GB. Laptop’umun 6 GB VRAM’li M1 Max’ı? 30 tok/s ile idare ediyor. HumanEval kodlama? %80. Deli gibi — Gemma 3’ün 27 milyarlık canavarı %29 yapmıştı. Kim kazanıyor? Orta seviye masaüstün varsa sen. Veri merkezi falan gerek yok.

Joker: gemma4:26b. MoE ile 128 uzman, token başına sadece 3.8 milyar aktif. 18 GB indir, 8-12 GB VRAM yudumluyor. Lanet hızlı. Ajanlar için yapılandırılmış JSON? Nokta atışı. Google sonunda yoğun model şişkinliği olmadan verimliliği çözmüş gibi.

Koca oğlan: 31 milyar yoğun. 20 GB. 4090’ım gülüyor — 15 tok/s, tanrı seviyesinde akıl yürütme. Ama Mac’te 32 GB birleşik bellek ya da eşdeğeri yoksa? Pas geç. Donanım vergisi fazla ağır.

Model	Etkin Parametreler	Min VRAM	RTX 3070’de Benim Tok/s	Tarz
e2b	2.3 milyar	4-6 GB	45	Hızlı sohbet dostu
e4b	4.5 milyar	6-8 GB	28	Günlük güç merkezi
26b	3.8 milyar (MoE)	8-12 GB	35	Sinsi zeki
31b	30.7 milyar	16-20 GB	12	Aşırı abartılı kral

Rakamlar yalan söylemez. MoE gösteriyi çalıyor.

Gemma 4’ün MoE Numarası Yoğun Modellere Karşı Google’ın İntikamı Mı?

Bakın, Uzman Karışımı yeni değil — DeepSeek yıllar önce oynamıştı. Ama Google’ın 26 milyarlık varyantı? Token başına ağırlıkların sadece %3’ü ateşliyor. GPU’n serin serin dururken 30 milyar yoğun gibi vuruyor. Tarihsel benzerlik: 2018’de BERT havası çıkarım maliyetlerinde çakıldı. Google öğrendi — ya da Meta’nın Llama verimlilik oyun kitabını kopyaladı.

Cimri bakış: Kim kâr ediyor? Sen değil, yerel çalıştırıyorsun. Google mı? Ollama’yı doldurup geliştiricileri ekosistemlerine bağlıyorlar, verilerini ince ayar için geri toplarlar sonra. Açık lisans xAI’ın Grok seline karşı çaresiz kokuyor. Cesur tahmin: İkinci çeyreğe kadar her bağımsız ajan app’i E4B’ye geçer. Yoğun 70 milyar? Ölü ağırlık.

Yerli fonksiyon çağırma işi bitiriyor. Cin prompt’lar yok. Ollama API’si üzerinden tanımlar ver — bum, web araması, kod çalıştırma, resim üretimi. Yerel ajan döngüsünde test ettim: 26B 10 araç zincirinden 9’unu yakaladı. E4B? 7/10. Sağlam.

Kenar modellerde ses de var. Sesli not fısılda — yazıya döküyor, akıl yürütüyor. Görüş entegre. Büyüklerde 256K bağlam. Alet çantası bu, oyuncak değil.

Ama abartı uyarısı. “Google’ın gönderdiği en iyi küçük model,” diye övünüyorlar. Ehem. Llama 3.1 8B bazı çok dilli testlerde onu geçiyor. Yine de ajanlar için? Gemma 4 pistte tur bindiriyor.

Bir hata: Eski Ollama’lar görüşü red

Ollama ile Gemma 4'ü Yerinde Çalıştır: Boyutları Karşılaştırdık

Key Takeaways

Hangi Gemma 4 Boyutu Senin Sisteme Uyar?

Gemma 4’ün MoE Numarası Yoğun Modellere Karşı Google’ın İntikamı Mı?

Worth sharing?

⚡ Key Takeaways

Hangi Gemma 4 Boyutu Senin Sisteme Uyar?

Gemma 4’ün MoE Numarası Yoğun Modellere Karşı Google’ın İntikamı Mı?

Share this article

Worth sharing?

Related Stories

RAG (Retrieval-Augmented Generation) Nedir?

Anthropic'in Mythos Preview'ı Sabah Uyandığında Hazır Exploit'lerle Karşılıyor — Ama Senin İçin Değil

Claude Mythos Preview Binlerce Sıfır-Gün Açığını Kazıp Çıkardı: Yapay Zeka Güvenlik Kurallarını Altüst Etti

React Server Bileşenleri'ndeki CVSS 10.0 RCE Zafiyeti Milyonlarca Uygulamayı Ele Geçirme Riskine Sokuyor

Key Takeaways