AI Tools

Çok Modlu Gömülmeleri Sentence Transformers ile İnce Ayar Ya

20 yılda binlerce 'çığır açan' model ayarı gördüm ama Qwen'in çok modlu gömme aracının bu ince ayarı gerçekten işe yarıyor: VDR'de 0.947 NDCG skoruyla, dört katı büyüklükteki rakiplerini adeta toza dumana katıyor. Peki, bu işten kim para kazanıyor?

İnce ayarlanmış Qwen çok modlu gömme modelinin belge görselleri üzerinde eğitim yaptığı ekran görüntüsü

Key Takeaways

  • Qwen3-VL-Embedding-2B'yi VDR verileri üzerinde ince ayar yapmak, NDCG@10 skorunu 0.947'ye yükselterek daha büyük rakipleri geride bırakıyor.
  • Sentence Transformers işlem hattı, çok modlu gömülmeler ve yeniden sıralayıcılar için geliştirici dostudur.
  • Gerçek kazanımlar, alana özgü veriler gerektirir; genel modeller belge düzenleri gibi özel görevlerde yetersiz kalır.

San Francisco’daki pencereme yağmur damlaları vururken, soğumuş kahvemle bir Sentence Transformers blog yazısını daha karıştırıyorum.

Çok modlu gömme modellerini Sentence Transformers ile ince ayar yapmak. İşte burada işin özü var — Qwen/Qwen3-VL-Embedding-2B modelini Görsel Belge Alma (VDR) için nasıl ayarlayacağınıza dair pratik bir rehber. VDR’de, metin sorgularını kullanarak ilgili belge sayfalarını (grafikler, tablolar, düzenler içeren görseller düşünün) ararsınız. Sonuç mu? tomaarsen/Qwen3-VL-Embedding-2B-vdr adında, taban 0.888 olan NDCG@10 skorunu kaygan bir 0.947’ye çıkaran ve test edilen diğer her şeyi, dört katı büyüklükteki devasa modelleri bile geride bırakan bir model.

İşin aslı şu. Bu Qwen gibi genel amaçlı çok modlu modeller, diller ve görevler arasında uyum sağlamak için çeşitli verilerle —görüntü-metin çiftleri, VQA, belge anlama yetenekleri— doldurulur. Çok yönlü duruyor, değil mi? Ama teknolojide çok yönlülük bazen lanettir; nadiren zirveye oynar. VDR, düzenleri kavramanızı, paragraflar arasındaki pasta grafiklerini çözmenizi, ekran görüntüsü denizinde Q3 gelirini tespit etmenizi gerektirir. Bu, spor ayakkabı resimlerini reklam metinleriyle eşleştirmekten dünyalar kadar farklı.

Neden Çok Modlu Gömülmeleri İnce Ayarlamaya Değer?

İnce ayar, uzmanlığı taşa kazır. Özel değerlendirme verilerinde, bu ayar sadece ufak bir dokunuş değil; resmen sıçrama yapıyor. Ama kendimizi kandırmayalım: kıyaslamalar sadece oyun alanıdır. Gerçek para, bu laboratuvar oyuncakları değil, kurumsal belge arama için ölçeklendiğinde kazanılır.

Ve içimdeki alaycı yanıma ne demeli? Web 2.0 balonundan beri Vadi’deki abartı döngülerini izledim. Hani her girişimin ‘anlamsal arama’ vaat ettiği, ama sonra Google’ın öğle yemeğini yediği zamanları hatırlayın? Bu tanıdık geliyor — açık kaynaklı kurcalamalar, ki Büyük Teknoloji bunları benimseyecektir.

İşlem hattı inanılmaz basit, sadece metinle eğitiminkini yansıtıyor. Modelinizi, veri setinizi, kayıp fonksiyonunuzu, argümanlarınızı, değerlendiricinizi, eğiticinizi alın. SentenceTransformerTrainer bunları birbirine yapıştırır, işlemci görüntü hazırlığını otomatik halleder. Büyü falan yok.

Model yüklemeyi ele alalım:

from sentence_transformers import SentenceTransformer model = SentenceTransformer( “Qwen/Qwen3-VL-Embedding-2B”, model_kwargs={“attn_implementation”: “flash_attention_2”, “torch_dtype”: “bfloat16”}, processor_kwargs={“min_pixels”: 28 * 28, “max_pixels”: 600 * 600}, )

Piksel ayarlaması, kalite ile bellek arasındaki klasik ödünleşmedir. Ya da ham bir VLM’den başlayın; modaliteleri otomatik algılar (metin, görüntü, video, hatta mesaj). Teyit etmek için model.modalities’i yazdırın. Güzel.

Veri setleri mi? Metin sorguları ve görüntü belgeleri çiftleri, zıt öğrenme için pozitif/negatif örnekler. MultipleNegativesRankingLoss veya CosineSimilarityLoss gibi kayıp fonksiyonları, ilgili olanları yaklaştırır, alakasızları iter. Değerlendiriciler eğitim ortasında sağduyu kontrolleri yapar.

Eğitim argümanları epoch’ları, yığın boyutunu, wandb’yi günlüklemeyi kontrol eder — standart şeyler. Eğiticiyi çalıştırın ve bir profesyonel gibi görüntü gömme işlemleri yaparsınız.

Sonuçlar konuşuyor: o 0.947 NDCG@10 bir hava değil. VDR’de 4 kat daha büyük modelleri geride bırakıyor. Ama benim benzersiz eleştirim burada — bu, 2018’deki BERT ince ayar çılgınlığını yankılıyor. Herkes NLP yapıştırması için ince ayar yapıyordu; şimdi sıra çok modlularda. Tahminim mi? 2026’ya kadar Snowflake veya Pinecone’dan VDR API’leri bunu paketleyecek, sorgu başına ücret alacak, açık kaynak ise tozlanmaya terk edilecek.

Sentence Transformers ile Çok Modlu Yeniden Sıralayıcıları Gerçekten İnce Ayarlayabilir Misiniz?

Evet. Yeniden sıralayıcılar, ilk k’daki gömülmeleri iyileştirir, daha derinlemesine puanlar. Aynı eğitici, ancak çapraz kodlayıcı havasıyla — çok modlu olanlar sorgu-belge çiftlerini birlikte işler. Hesaplama yoğun ama hassasiyet için ölümcül. Post bunu özetliyor; orada da NDCG sıçramaları bekleyin.

Bakın, halkla ilişkiler döndürmesi ‘hepsinden iyi performans gösteriyor!’ diye bağırır. Peki, değerlendirmelere kim fon sağlıyor? Alan verisi anahtardır — belgeleriniz, sizin zaferleriniz. Onlar olmadan, taban modeller patlar.

Yönlendirici alternatifi: ayrı kodlayıcıları birleştirin (görüntüler için CLIP, metin için BERT). Esnek ama Frankensteinvari. Tek VLM omurgaları uyum için kazanır.

Kelime2Vec günlerinden beri gömülmeleri takip ediyorum. Sentence Transformers mı? Sağlam bir kütüphane, abartılı terimler yok. Ama para sorusu: kurumsal firmalar barındırılan ince ayarlar için ödeme yapar, kendi yaptıkları için değil. Hugging Face Spaces bunu paraya çeviriyor; yazarlar yıldız toplar, maaş değil.

Şüpheci misiniz? Test edin. Depoyu, PDF’lerinizi-görüntülerinizi alın, sorgulayın. Eğer VDR sizin işinizse — hukuki belgeler, finansal raporlar — bu genel modelleri ezer geçer.

Ama daha geniş kapsamda: çok modlular patlıyor, ancak RAG boru hatları hala görsellerle boğuşuyor. İnce ayar bu boşluğu doldurur. Yine de Vadi’nin paterni — açık inovasyon, kapalı karlar.

Çok Modlu İnce Ayar İçin Sentence Transformers En İyisi mi?

Geliştiriciler için mi? Kesinlikle — Pythonik, savaşta test edilmiş. JAX’ın esoterikligini geride bırakır. Ama 100 milyar parametreye ölçeklenir mi? Hayır, o özel alana ait.

Tek paragraflık harika bilgi: Donanım oburları. A100’de 2 milyarlık model mi? Tamam. Daha büyüğü için küme mi? Dua edin.

Derinlemesine dalış zamanı. Veri setleri en önemlisi. VLMs’den üretilmiş sentetik çiftler mi? Riskli halüsinasyonlar. Gerçek belgeler — kendi arşivinizi tarayın, sorguları etiketleyin. Kayıp fonksiyonu mu? Zıt öğrenme kralları; MNRL’ye sadık kalın.

Değerlendirici ipucu: tutulmayan bir küme üzerinde InfoNCE. Geliştirme karmaşıklığını mı takip ediyorsunuz? Hayır, alma metrikleri hüküm sürüyor.

Eğitici özellikleri: büyük yığınlar için gradyan birikimi, hız için fp16. FlashAttn2 belleği düşürür — tüketici GPU’larında oyun değiştirici.

Tarihsel paralellik: 2015’te alan görüntüleri için ResNet’i ince ayar yapmak gibi, bu çok modlu değişim, geri alma işlemini düzenlere karşı silahlandırıyor. Cesur iddia — VDR, 2025’e kadar kurumsal alanda CLIP’in öğle yemeğini yiyecek.

Döndürmeyi eleştirin: ‘Test edilen tüm modelleri geride bırakıyor.’ Nasıl test edildi? Genel liderlik tabloları mı? Seçilmiş örnekler mi? CSV dosyasını gösterin, millet.

Walkthrough’u tamamlarken — bu çalıştırılabilir altın. Yeni başlayanlar: çok modlu temeller üzerine öncülü okuyun. Sadece metin mi? Eski gönderiler kapsıyor.

Kararım mı? Yapın. Kazançlar gerçek. Ama sorun: alan verisi etiketlemenize kim sponsor oluyor?


🧬 İlgili İçgörüler

Sıkça Sorulan Sorular

Görsel Belge Alma (VDR) nedir? VDR, metin sorgularını ilgili belge görselleriyle eşleştirerek düzenleri, tabloları, grafikleri korur — finansal raporları veya sözleşmeleri aramakiçin idealdir.

Çok modlu gömülmeleri ince ayar yapmak ne kadar iyileştirir? Bu durumda, NDCG@10 0.888’den 0.947’ye sıçradı ve daha büyük modelleri geride bıraktı; sizin deneyiminiz veri setinize göre değişir.

Kendi çok modlu modelimi Sentence Transformers ile ince ayar yapabilir miyim? Evet, SentenceTransformerTrainer’ı görüntü-metin çiftleriyle kullanarak — Qwen VLM’lerde kutudan çıktığı gibi çalışır.

Written by
Aisha Patel

Former ML engineer turned writer. Covers computer vision and robotics with a practitioner perspective.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Hugging Face Blog