Qwen3.5:9B vs Daha Büyük Modeller: Yerel AI Ajanları Test Edildi

27GB’lik bir modeli çıkarım sırasında çökerken, 6.6GB’lik bir alternatifonun işi sorunsuz hallettğini gördüm.

O an — RTX 5070 Ti’nin önünde oturmuş, WSL2’de bir segfault hatası dikkatimi çekerken — bu endüstriyi yirmi yıldır takip ettiğim için fark etmiş olduğum bir şeyi netleştirdi: parametre sayısı bir vanite metriğidir. Basın bültenlerinde ve yatırımcı sunumlarında bunu abartırlar. Yatırımcıları sevindir. Ama masanızda modeli gerçekten işlevsel kılan neredeyse hiçbir zaman parametre sayısıdır.

qwen3.5:9B’yi 18 test üzerinden beş rakip modele karşı test ettim, özellikle yerel ajan çalışması için — gerçek hayatta araçları çağırdığınız, yapılandırılmış veri ayrıştırdığınız ve yeterince hızlı sonuç aldığınız işler. Kazanan belli idi.

Kimsenin Konuşmadığı Kıyaslama: Yapılandırılmış Araç Çağrıları

Yerel ajanları ayıran şey budur ve Alibaba mühendisleri bunu çoğu kişiden daha iyi anlamış görünüyor.

Birçok dil modeline bir araç kullanmasını söylediğinizde — örneğin dizin listelemek ya da veritabanını sorgulamak — işlev çağrısını metin yanıtının ortasına gömecektir. Sonra ayrıştırma, hata işleme, yeniden deneme mekanizmaları uğraşı çekiyor. Kaos başka bir adı. Bazı modeller bunu diğerlerinden daha iyi yapar, ama çoğu sizi bir çöp çıkarım katmanı kurmaya zorlasıyor.

“Native tool_calls desteği ve Q4_K_M kuantizasyonu olan modeller sorunsuz çalıştı.”

Qwen3.5:9B temiz, ayrı bir tool_calls alanını JSON’da döndürür. Hepsi bu. Ayrıştırma yok. Regex cirkosu yok. Kod hackleme yok. Qwen2.5:14B ve Qwen2.5-coder:14B gibi daha büyük rakipler aynı bilgiyi ham metne gömdüler ve sizi çıkarım katmanları kurup saat 23:00’te debug etmeye mahkûm ettiler.

Bu senaryoyu beş model üzerinde test ettim. Qwen3.5:9B zamanın %100’ünde başardı. Gemma 4 E4B (9.6GB’lik bir model) 3 araç çağrısından 14’e geçmek için 30 dakika uğraş gerektirdi. Bu kez bile daha küçük modelin istikrarının altında kaldı. 27B varyantları? Üretim dağıtımını riskli hale getiren stabilite sorunları.

VRAM Gerçek Darboğaz Haline Geldiğinde (Spoiler: Her Zaman Böyledir)

Bir şeyi açık söyleyeyim: tüketici GPU belleği yerel yapay zeka çalışmasında modellerin sofistikasyonundan değil, asıl problemdir.

Qwen3.5:9B benim RTX 5070 Ti’de 6.6GB VRAM tüketiyordu, KV önbelleği için yer kalıyor ve daha uzun bağlamlar için alan artıyor. Q4_K_M kuantize 27B model? 16GB — kartı tamamen yoruyor. Sonra çökmeler başladı. WSL2’deki TurboQuant segfault durumu işi daha da berbat etti, basit bir çıkarımı debug kabusuna çevirdi.

Dikkatli notlar tuttum. Gerçekte neler oldu:

Daha büyük model savunucuları daima “sadece daha fazla VRAM al” derler. Tabi, eğer A100 için 8 bin dolar harcamaya paranız varsa. Ama tüketici GPU’sunda yerel ajanlar çalıştırıyorsanız — açık söylemek gerekirse çoğumuzun durumu bu — VRAM sabit sınır. Teorik kapasite değil. Benchmark skoru değil. Gerçek, somut bellek.

Qwen3.5:9B bu fiziksel gerçeğe saygı duyuyor.

Kimsenin Tartışmadığı Token Verimlilik Hilesi

İşler buradan tuhaflaşıyor ve aynı zamanda kazançlar da burada başlıyor.

Qwen3.5:9B iç düşünme tokenlerini kapatarak bir think=false parametresini destekliyor. Aynı görev. Farklı token tüketimi. 1024+ token yerine 131 token konuşuyoruz. 8-10 kat azalma. Bu hata payı değil — modelin davranış biçiminde tam bir değişikliktir.

Neden önemli? Çünkü daha uzun bağlam pencereleri ve daha fazla araç sonucu aynı VRAM miktarına sığar. Bellek taşmasından korkmadan daha karmaşık ajan döngüleri çalıştırabilirsiniz. Modeli yaratıcı görevlerde (think=true ile) düşünmeye itebilir ve yine de donanım bütçenizde kalabilirsiniz.

Diğer modellerin düşünme yetenekleri var elbette. Ama size ayrıntılı kontrol vermiyorlar. Ve benim deneyimime göre ayrıntılı kontrol — görev türüne göre ayarlamalar —

Qwen3.5:9B vs Daha Büyük Modeller: Yerel AI Ajanları Test Edildi

Key Takeaways

Kimsenin Konuşmadığı Kıyaslama: Yapılandırılmış Araç Çağrıları

VRAM Gerçek Darboğaz Haline Geldiğinde (Spoiler: Her Zaman Böyledir)

Kimsenin Tartışmadığı Token Verimlilik Hilesi

Worth sharing?

⚡ Key Takeaways

Kimsenin Konuşmadığı Kıyaslama: Yapılandırılmış Araç Çağrıları

VRAM Gerçek Darboğaz Haline Geldiğinde (Spoiler: Her Zaman Böyledir)

Kimsenin Tartışmadığı Token Verimlilik Hilesi

Share this article

Worth sharing?

Related Stories

RAG (Retrieval-Augmented Generation) Nedir?

Anthropic'in Mythos Preview'ı Sabah Uyandığında Hazır Exploit'lerle Karşılıyor — Ama Senin İçin Değil

Claude Mythos Preview Binlerce Sıfır-Gün Açığını Kazıp Çıkardı: Yapay Zeka Güvenlik Kurallarını Altüst Etti

React Server Bileşenleri'ndeki CVSS 10.0 RCE Zafiyeti Milyonlarca Uygulamayı Ele Geçirme Riskine Sokuyor

Key Takeaways