AI Research

JEPA: Yapay Zeka'nın Gerçek Anlayış İçin İhtiyaç Duyduğu Mim

Şiir yazabilen ve baro sınavını geçebilen yapay zekalarımız var, ancak düşen bir fincan kahveyi beceremiyorlar. Bu ölçeklendirme sorunu mu, yoksa temel mimari bir kusur mu?

Yapay Zekanın 'Sessiz Skandalı': JEPA Makineleri Sonunda Sağduyuya Kavuşturabilir mi? — theAIcatchup

Key Takeaways

  • Mevcut üretken yapay zeka modelleri, insanlar gibi gerçek dünya nedensel anlayışından yoksun olmalarına rağmen, token/piksel tahmininde ustadır.
  • JEPA (Ortak Gömme Tahmin Mimarisi), insan sezgisine benzeyerek, ham veriden ziyade soyut temsilleri (anlamları) tahmin ederek yapay zekayı eğitmeyi amaçlar.
  • Bu mimari değişim, robotik ve otonom sistemler gibi alanlarda önemli sonuçlar doğurarak gerçek yapay zeka akıl yürütme yeteneklerinin kilidini açabilir.

Yapay zekayı akıllı mı eğitiyoruz, yoksa sadece bir sonraki kelimeyi tahmin etmekte çok mu iyi hale getiriyoruz?

Bakın, yıllardır Silikon Vadisi’nin abartı makinesi, yılan yağı satma konusunda ustalaştı. Hepsini gördük: unutulmaya yüz tutan ‘çığır açan’ uygulamalar, zaten var olanın daha süslü bir versiyonu olan ‘devrimci’ platformlar. Ve şimdi, en yeni göz kamaştırıcı oyuncak, metin, kod ve hatta videoları ürkütücü bir akıcılıkla üretebilen o devasa dil modelleri, yani üretken yapay zeka.

Şüphesiz etkileyiciler. Ama pazarlama departmanlarının üzerini ustaca örtmeye çalıştığı gerçek şu: bu trilyon parametreli devlere bir fincan kahveyi düşürmenin fiziksel sonucunu tahmin etmek gibi basit bir şey sorduğunuzda, beceriksizleşiyorlar. İki yaşındaki bir çocuk anlar. Yapay zeka? Pek sayılmaz.

Bu boşluk, yani sofistike dilsel performans ile temel gerçek dünya sezgisi arasındaki bu keskin tezat, Meta’nın Baş Yapay Zeka Bilimcisi Yann LeCun ve büyüyen araştırmacı grubunun bir skandal olarak adlandırdığı şey. Ve önerdikleri panzehirin adı oldukça sıradan: JEPA – Joint Embedding Predictive Architecture (Ortak Gömme Tahmin Mimarisi).

Bu bir sonraki büyük şey mi, yoksa VC (Girişim Sermayesi) fonu çekmek için tasarlanmış başka bir akıllı kısaltma mı? Bu sirkülasyonu yirmi yıldır takip ediyorum ve BS (saçmalık) dedektörüm genellikle oldukça iyi kalibre edilmiştir. Üretken yapay zeka etrafındaki abartı, göz kamaştırıcı olsa da, temel sınırlamalarına indiğinizde her zaman biraz boş hissettirmiştir. Taklit etmede, bir dizideki bir sonraki tokeneı tahmin etmede harika olan modeller inşa ettik. Peki ya anlama? Dünyanın nasıl işlediğine dair gerçek bir kavrayış? Bu belirgin şekilde eksikti.

Üretken Yapay Zekanın Çıkmaz Sokağı mı?

Son birkaç yıldaki baskın strateji, kaba kuvvetti: daha büyük ağlar, daha fazla veri, bir sonraki parçayı tahmin et. GPT, Sora, tüm üretken patlama için tarif budur. Ve bir süre, yapay genel zekaya giden yol buymuş gibi göründü. Ama yüzeyi çizdiğinizde, fizik hakkında sonetler yazabilen ancak temel bir fiziksel senaryoyu akıl yürütemeyen modeller bulursunuz. Video oluşturucular fotogerçekçi ejderhalar yaratabilir, ancak bir insan elini doğru sayıda parmakla tutarlı bir şekilde çizemezler. Önemli bir zamansal ufukta planlama? Unutun gitsin. Kendinden emin görünen gevezeliklere dönüşürler.

LeCun’un sürekli vurguladığı sorun sadece modellerin çok küçük olması değil. Temel amaç: bir sonraki pikseli veya tokeneı tahmin etmek. O verinin çoğu gürültüdür – aydınlatma varyasyonları, kamera greni, altta yatan olayı anlamak için tamamen ilgisiz dokular. Her ayrıntıyı tahmin etmeye zorlanan bir model, önemsiz ayrıntılara devasa hesaplama kaynakları harcar. Ve gelecek belirsiz olduğunda – ki gerçek dünyada neredeyse her zaman öyledir – her olası geleceği piksel düzeyinde ortalamak size sadece bulanık bir karışıklık verir. Elmanın tadı hakkında, her bir tohumun rengini titizlikle kataloglayarak bilgi edinmeye çalışmak gibidir.

Eğer bu masanın kenarından bir fincan kahveyi bırakırsam, iki yaşındaki bir çocuk sonra ne olacağını bilir. Kendi haline bırakılan trilyon parametreli bir dil modeli bunu yapamaz.

İşte sorunun özü bu. Yapay zekayı inanılmaz derecede konuşkan papağanlar olarak eğittik, gerçek düşünürler olarak değil.

LeCun’un Bahsi: Piksel Değil, Anlam Tahmin Etmek

Peki, alternatif ne? LeCun’un bahsi yanıltıcı derecede basit: ham veriyi tahmin etmeyi bırakın. Verinin bir temsilini tahmin etmeye başlayın. İnsanların nasıl öğrendiğini düşünün. Bir yaprağın düştüğünü gördüğünüzde, beyniniz her bir fotonu yeniden yapılandırmaz. Soyut bir anlayış oluşturur: düşen bir yaprak, belirli bir hızda, belirli bir yönde. O soyut anlamlar, piksel düzeyindeki gürültüyü atarak, sonra ne olacağını tahmin etmenizi sağlar. JEPA’nın arkasındaki sezgi budur.

Bir JEPA modeli, iki ilgili bilgi parçasını alır – diyelim ki bir videonun iki karesi veya bir görüntünün farklı bölümleri – ve eksik parçanın tam piksellerini tahmin etmeye çalışmak yerine, o eksik parçanın soyut bir gömülmesini tahmin eder. Bilinen bağlamın anlamını, tahmin edilen geleceğin anlamına eşleştirmeyi öğrenir. Kayıp fonksiyonu ham pikselleri karşılaştırmaz; soyut temsilleri veya ‘anlamları’ karşılaştırır. Bu, modelin ilgisiz ayrıntıları bir kenara atarak, dünya hakkında daha sıkıştırılmış, daha anlamlı bir anlayış öğrenmesini zorlar.

Ve burada kim para kazanıyor? Şu anda, çoğunlukla araştırma laboratuvarları ve iyi finanse edilmiş birkaç girişim. LeCun liderliğindeki Meta, büyük yatırımlar yapıyor. Ancak JEPA işe yararsa, gerçekten plan yapabilen, fizik anlayışına sahip, nedensellik hakkında akıl yürütebilen yapay zeka sistemleri hayal edin. Bu, robotik, otonom sistemler ve yapay zekanın kaotik, öngörülemeyen gerçek dünya ile etkileşim kurmasını ve anlamasını gerektiren herhangi bir alan için büyük sonuçlar doğurur. Bu sistemleri inşa edebilen şirketler, parayı götürenler olacaktır.

Geliştiriciler İçin Neden Önemli?

Geliştiriciler için bu değişim derin olabilir. Bir kara kutudan sadece metin istemek yerine, dünyanın daha güçlü bir iç modeline sahip yapay zeka sistemleriyle etkileşim kurabilirsiniz. Bu, daha güvenilir yapay zeka yardımcılarına, bilimsel araştırmalar için daha gelişmiş araçlara ve gerçek akıl yürütme ve tahmin gerektiren tamamen yeni uygulama kategorilerine yol açabilir. Mevcut üretken modeller güçlüdür, ancak çoğu zaman inanılmaz derecede gelişmiş otomatik tamamlama motorları gibi hissettirirler. JEPA tabanlı sistemler, geliştiricilerin inşa edebilecekleri konusunda yepyeni bir olasılık evreni açan, gerçek zekaya daha yakın bir şey vaat ediyor.

Bu JEPA fikri, yavaş yavaş ilerleyen bir süreç. Yarın düşen kahve fincanlarının gösterişli demolarını görmeyeceksiniz. Ancak Meta gibi laboratuvarlarda süregelen sessiz, ısrarcı çalışma, sektörün mevcut yolunun sınırlamalarının farkına vardığını gösteriyor. Üretken sapma, verimli olsa da, sonuna yaklaşmış olabilir. Dünyayı anlayan gerçek zeka, tıpkı bizim gibi öğrenen bir mimaride, gözümüzün önünde saklanıyor olabilir.

İşimi Yerine mi Alacak?

JEPA veya herhangi bir yapay zeka gelişimi, mutlaka tüm işleri değiştirmek yerine insan yeteneklerini artırmayı hedefler. Yapay zeka belirli görevleri otomatikleştirebilirken, yapay zeka geliştirme, yönetimi ve etik denetim gibi alanlarda yeni roller ve fırsatlar da yaratır.

JEPA ile Mevcut LLM’ler Arasındaki Fark Nedir?

LLM’ler, dilbilimsel kalıplara odaklanarak bir dizideki bir sonraki tokeneı (kelime/karakter) tahmin eder. JEPA, sadece istatistiksel korelasyondan ziyade dünya hakkında daha derin, nedensel bir anlayış sağlamayı amaçlayarak verinin soyut temsillerini (gömülmelerini) tahmin eder.

JEPA Ticari Olarak Mevcut mu?

JEPA şu anda aktif bir araştırma alanıdır. Bileşenler ve ilgili fikirler çeşitli yapay zeka sistemlerine entegre edilse de, bağımsız, ticari olarak mevcut bir JEPA ürünü henüz yaygınlaşmamıştır. Meta gibi şirketler geliştirilmesinde yoğun bir şekilde yer almaktadır.


🧬 İlgili İçgörüler

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Towards AI