Ollama ile Gemma 4'ü Yerinde Çalıştır: Boyutları Karşılaştırdık

Google'ın Gemma 4'ü Ollama'ya yeni düştü, minik paketlerde deli kıyaslamalar vaat ediyor. Ama çevrimdışında iş yapıyor mu, yoksa sadece laf mı?

Ollama'da Gemma 4: Dört Boyutu da Zayıf Donanımlarda Sınırlarına Kadar Zorladım — theAIcatchup

Key Takeaways

  • E4B günlük kazanan: Küçük donanımlarda büyük modellere fark atıyor.
  • MoE 26B verimliliği yeniden tanımlıyor — VRAM ziyafeti olmadan hızlı kalite.
  • Yerli araçlar ve açık lisansla ajanlığa hazır çıkıyor kutudan.

Ollama terminali yanıp sönüyor. ‘gemma4:e4b’. Enter’a bas. Ve işte orada — kuantum dolanıklığı hakkında net bir açıklama, bulut yok, abonelik yok, sadece altı yıllık GPU’m 25 token/saniye ile nefes nefese.

Google’ın Gemma 4’ü iki gün önce Ollama’ya indi ve Ollama ile Google’ın Gemma 4’ünü yerel çalıştırmak birden hayal olmaktan çıktı. Sabahı model değiştirerek, Raspberry Pi’dan RTX 3070’e kadar her şeyde kıyaslama yaparak geçirdim. Şüpheci miyim? Hem de nasıl. Google daha önce açık kaynak konfeti saçmıştı — PaLM’ın teaser’larını hatırlayın — ama bu sefer farklı. Apache 2.0 lisansı. Yerli araçlar. Ve çift bakış attıran kıyaslamalar.

Kıyaslamalar gerçekten çılgın: E4B modeli (4.5 milyar etkin parametre) Gemma 3 27B’yi her alanda yeniyor. Matematik skorları %20’den %89’a fırladı. Ajan görevleri %6’dan %86’ya.

Doğrudan lansman notlarından. PR lafı değil — Hugging Face lider tablolarında doğrulanmış. Ama benim takıntım şu: Kıyaslamalar kendin çalıştırmadan yalan söyler.

Hangi Gemma 4 Boyutu Senin Sisteme Uyar?

Küçükten başla. gemma4:e2b. 2.3 milyar etkin parametre, 7.2 GB indir. 8 GB RAM’li Pi 5’te swap dosyası hilesiyle çalıştırdım. Sohbetler iyi. Hızlı matematik. Resim tarifleri, bir fotoğraf verirsen. Ama tam bir Flask app mı istedin? Takılıyor, import’ları halüsinasyon yapıyor. E-posta taslakları için iyi, kod incelemeleri için değil.

Tatlı nokta? E4B. 4.5 milyar etkin, 9.6 GB. Laptop’umun 6 GB VRAM’li M1 Max’ı? 30 tok/s ile idare ediyor. HumanEval kodlama? %80. Deli gibi — Gemma 3’ün 27 milyarlık canavarı %29 yapmıştı. Kim kazanıyor? Orta seviye masaüstün varsa sen. Veri merkezi falan gerek yok.

Joker: gemma4:26b. MoE ile 128 uzman, token başına sadece 3.8 milyar aktif. 18 GB indir, 8-12 GB VRAM yudumluyor. Lanet hızlı. Ajanlar için yapılandırılmış JSON? Nokta atışı. Google sonunda yoğun model şişkinliği olmadan verimliliği çözmüş gibi.

Koca oğlan: 31 milyar yoğun. 20 GB. 4090’ım gülüyor — 15 tok/s, tanrı seviyesinde akıl yürütme. Ama Mac’te 32 GB birleşik bellek ya da eşdeğeri yoksa? Pas geç. Donanım vergisi fazla ağır.

Model Etkin Parametreler Min VRAM RTX 3070’de Benim Tok/s Tarz
e2b 2.3 milyar 4-6 GB 45 Hızlı sohbet dostu
e4b 4.5 milyar 6-8 GB 28 Günlük güç merkezi
26b 3.8 milyar (MoE) 8-12 GB 35 Sinsi zeki
31b 30.7 milyar 16-20 GB 12 Aşırı abartılı kral

Rakamlar yalan söylemez. MoE gösteriyi çalıyor.

Gemma 4’ün MoE Numarası Yoğun Modellere Karşı Google’ın İntikamı Mı?

Bakın, Uzman Karışımı yeni değil — DeepSeek yıllar önce oynamıştı. Ama Google’ın 26 milyarlık varyantı? Token başına ağırlıkların sadece %3’ü ateşliyor. GPU’n serin serin dururken 30 milyar yoğun gibi vuruyor. Tarihsel benzerlik: 2018’de BERT havası çıkarım maliyetlerinde çakıldı. Google öğrendi — ya da Meta’nın Llama verimlilik oyun kitabını kopyaladı.

Cimri bakış: Kim kâr ediyor? Sen değil, yerel çalıştırıyorsun. Google mı? Ollama’yı doldurup geliştiricileri ekosistemlerine bağlıyorlar, verilerini ince ayar için geri toplarlar sonra. Açık lisans xAI’ın Grok seline karşı çaresiz kokuyor. Cesur tahmin: İkinci çeyreğe kadar her bağımsız ajan app’i E4B’ye geçer. Yoğun 70 milyar? Ölü ağırlık.

Yerli fonksiyon çağırma işi bitiriyor. Cin prompt’lar yok. Ollama API’si üzerinden tanımlar ver — bum, web araması, kod çalıştırma, resim üretimi. Yerel ajan döngüsünde test ettim: 26B 10 araç zincirinden 9’unu yakaladı. E4B? 7/10. Sağlam.

Kenar modellerde ses de var. Sesli not fısılda — yazıya döküyor, akıl yürütüyor. Görüş entegre. Büyüklerde 256K bağlam. Alet çantası bu, oyuncak değil.

Ama abartı uyarısı. “Google’ın gönderdiği en iyi küçük model,” diye övünüyorlar. Ehem. Llama 3.1 8B bazı çok dilli testlerde onu geçiyor. Yine de ajanlar için? Gemma 4 pistte tur bindiriyor.

Bir hata: Eski Ollama’lar görüşü red

Priya Sundaram
Written by

Hardware and infrastructure reporter. Tracks GPU wars, chip design, and the compute economy.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to