Günlük 10 dolar. Puf.
MasterCLI’ın ana modüllerinin API faturasıydı bu — sorgu sınıflandırma, belge çıkarma, mesaj hazırlığı — GPT-4o-mini ve Claude’un yükü altındayken.
Gemma 4 her şeyi değiştirdi. Google’ın 8B açık kaynak modeli, Ollama ile indirip sıradan bir RTX 3070 Ti laptopa (8GB VRAM, Windows 11) yükledik. Bulut yok. Maliyet yok. Dört üretim parçasını bir öğleden sonra entegre ettik.
Gerçek durum şu: Bu abartı değil. Piyasa hesabı. Bağımsız geliştiriciler ve girişimler “basit” AI işleri için yılda 3 bin doların üstünde kan kaybediyor. Yerel Gemma 4? Sıfır. Üstelik sabit 25 token/saniye hızında.
Fark Yaratacak Kıyaslamalar
Rakamlara bak. Görevlerde tutarlı — iniş çıkış yok.
| Görev | Token | Süre | Hız |
|---|---|---|---|
| Basit S&A | 11 | 0.6s | 19.8 tok/s |
| Go kod üretimi | 600 | 25.7s | 23.4 tok/s |
| Çince JSON çıkarma | 500 | 18.5s | 27.1 tok/s |
| Niyet sınıflandırma | 9 | 0.4s | 25.6 tok/s |
| Araç çağrısı | 34 | 1.3s | 27.1 tok/s |
Prompt’lar 120-850 tok/s arasında yiyor. Sığar mı? Zorla — 9.6GB kuantize VRAM’den RAM’e taşıyor. Gerçek laptop hayatı, A100 hayalleri değil.
Asıl bomba: Gemma 4 düşünüyor — o1 veya DeepSeek gibi. Önce boş “content” akıtıyor, akıl yürütmeyi “thinking” alanına döküyor.
Model, son cevabı content’e koymadan önce thinking alanında düşünce zinciri akıl yürütmesine token harcıyor.
“think”: false yap? Büyü. Sınıflandırma 7.7 kat hızlanıyor (0.9s’ye karşı 6.9s). JSON çıkarma? 4.5 kat. Kod üretimi yarıya iniyor.
Aynı çıktı kalitesi. Üretim borularında no-brainer.
Gemma 4 Bu Kadar Eski Donanımda Gerçek Araç Çağrılarını Yapabilir mi?
Kesinlikle evet. search_contracts aracı ver — “5M CNY üstü IT sözleşmeleri” sorgusu — şunu kusuyor:
{ “name”: “search_contracts”, “arguments”: { “category”: “IT”, “min_budget”: 5000000, “query”: “IT contracts” } }
34 token. 1.3 saniye. Düşünmeyi tamamen atlıyor. num_predict’i 2048+’ya çek yoksa akıl tokenlarında aç kalır.
Tuzaklar? /api/generate kararsız — boş yanıtlar. /api/chat’e sadık kal. Bana bir saat kaybettirdi.
Bu oyuncak değil. MasterCLI’ın RAG tabanı — 80 alan, 7 ad alanı — kullanıcı sorgularını <1s’de otomatik sınıflandırıyor. Manuel etiket yok. Sadece yaz.
Çok ajanlı forum? Mesajları yerel ön işleme al, goroutine bloklamasız. Karmaşık olanları sadece yükselt.
Yerel Gemma 4 Neden AI İş Yüklerinin %80’inde Bulutu Ezüyor
İki katmanlı kurulum. Hızlı/düşük zeka işleri Gemma yerel: sınıflandır, çıkar, yönlendir. Think=false. 4s altı gecikme. 0 dolar.
Edge vakaları Claude/GPT’ye yükselt. Ağır kaldırmaya para öde.
Çoğunun kaçırdığı içgörü: Uygulama “zekasının” %80’i ham iş. Sınıflandırma. Etiketleme. Yönlendirme. 8B yerel modellerin alanı — bulut gösteri tayları için.
Google’ın hamlesi? Dâhiyane hamle. Gemma 4 geliştiricileri açık ağırlıklara bağlıyor, sonra Gemini’yi API’yle satıyor. Benim bahsim: 2026’ya kadar yerel çıkarım ön işleme pazarının %40’ını kapar. PC patlamasını hatırlatıyor — mainframe’ler (AWS) 1500 dolarlık rig’lere yeniliyor, AI’yi yerel çalıştırıyor.
Kurumsal laf “edge AI” der. Hayır. Maliyet isyanı bu. Günlük 10 dolar x 365? Uygulama başına yılda 3650 dolar. Takımlara ölçekle? Katliam.
Şüpheci misin? Ben de öyleydim. M1 Mac’te aynı testi yaptım — yavaş ama idare eder. Tüketici GPU’lar kazanıyor.
Üretim değişimi öğleden sonra bitti: Ollama çek, prompt’ları ayarla, Go istemcisini bağla. RAG sorguları artık hibrit otomatik. Forum ajanları daha zeki, ucuz.
Bağımsız AI Geliştiriciler İçin Neden Önemli Bu?
Piyasa dinamikleri alım sinyali veriyor. API devleri orta seviye 7B’lerin bedava ezdiklerini premium fiyatlıyor.
Anthropic’in Claude’u? Milyon girdiye 3 dolar. OpenAI mini? Kuruşlar — ama birikiyor. Yerel? Sonsuz ölçek.
Eksiler? VRAM açlığı. 4GB kartlar olmaz. İnce ayar lazım — think=false, chat ucu, token bütçeleri.
Ama artılar ezer. MasterCLI’ın dört modülü? API sıfırlandı. Uptime? Yerel kaya gibi.
Cesur tahmin: AI geliştirme ekonomisini tersine çevirir bu. Solo’ları öldüren “AI vergisi” bitti. Ollama