ADeLe: %88 Yapay Zeka Performans Tahmini

%88 doğruluk. Yanlış okumadınız. Araştırmacılar, herhangi bir yapay zeka modelinin tamamen yeni görevlerde nasıl performans göstereceğini öngörmenin yolunu buldu – GPT-4o ve Llama-3.1 gibi devlerde bile %88 başarıyla.

Şu anki yapay zeka kıyaslamalarını düşünün: Adama direksiyon sınavı, satranç bulmacası ve bilgi yarışması verip ortalamayı alıp ‘akıllı’ demek gibi. Gerçek hayatta işe yaramaz. Ama ADeLe? Yapay zeka beyninin GPS’i.

Ve asıl bomba burada.

Microsoft ekibi, Princeton ve İspanyol akıllılarla Nature’da bu patlamayı bıraktı. Adı ADeLe – Talep Seviyelerine Göre Yapay Zeka Değerlendirmesi. Dağınık testler yerine her şeyi 18 temel yeteneğe indirgiyor: mantık yürütme, dikkat, alan bilgisi, aklınıza ne gelirse. Görevler her birinde 0-5 puan alıyor. Modeller de aynı şekilde profilleniyor. Pat – eşleştir, performansı öngör.

ADeLe’yi Yapay Zeka Testlerinde Neden Oyun Değiştirici Yapan Şey?

Süper kahraman keşif raporu gibi düşünün. Superman uçmada kral, sihirde zayıf? ADeLe bu radyal grafikler çiziyor – yetenek örümcek ağları – GPT-4o’nun sayısal mantıkta ezerken sosyal çıkarımda tökezlediğini net gösteriyor. Eski modeller her yerde geride; yeniler mantık ve soyutlamada uçuyor. Canlı. Görsel. Yapay zeka tahminini bilime çeviren harita bu.

Ama durun – başarısızlıkları da açıklıyor. Modelin çöktüğü kıyaslama? ADeLe diyor ki ‘aptal değil, sadece üstbilişten yoksun’ ya da görev gizli yetenek istiyor. Artık kara kutu gizemi yok.

ADeLe Günümüz Kıyaslamalarındaki Yalanı Tespit Edebilir mi?

Bakın, mevcut değerlendirmeler? Çökmüş vaziyette. Çoğu iddia ettiği şeyi bile test etmiyor. ‘Mantık’ testi trivia dolu? Var. Kolay galibiyetleri veya vahşi zorlukları kaçıran dar zorluk aralıkları? İki kat.

“Yaygın kullanılan pek çok kıyaslama, model yetenekleri hakkında eksik ve bazen yanıltıcı bir tablo sunuyor; daha yapılandırılmış bir yaklaşım bu boşlukları aydınlatıyor.”

Kağıttan doğrudan alıntı. ADeLe hepsini ifşa ediyor, görevleri puanlayıp uyumsuzlukları ortaya çıkarıyor. Daha iyi kıyaslama tasarlayın? Görünmeyenlerde çöküş öngörün? Halloldu.

Ve tahmin gücü – 15 LLM’de %88. Abartı değil; günlük kullandığınız devlerde laboratuvar testli.

Kısa paragraf: Çılgınca.

Şimdi benim sıcak yorumum – ve bunu kimse bağırmıyor henüz. SAT’yi hatırlayın? Üniversite başarısını fena öngörmüyordu, kabulcülere deneme yanılma olmadan potansiyele bahis oynatıyordu. ADeLe yapay zeka için o. ‘Yetenek pazarı’ eşiğindeyiz – görev taleplerini gir, model profillerini tara, kazananını seç. Dağıtımda Rus ruleti yok. İki yılda? Her kurumsal yapay zeka alımı ADeLe puanıyla başlar. Değerlendirmenin Moore Yasası: standart, ölçeklenebilir, öngörücü.

Geliştiriciler (ve Diğer Herkes) Neden Hemen Umursamalı?

Uygulama mı geliştiriyorsunuz? Toplu puanlara güvenmeyin. ADeLe profilleri Llama-3.1’in mantık yıldızı mı yoksa bilgi papağanı mı olduğunu gösteriyor. Dağıtımlar daha güvenli – prod’u batırmadan başarısızlıkları öngörün.

Büyütün: ADeLe’yle uzmanlaşmış ajan sürüleri hayal edin. Matematik için biri, sohbet için diğeri. Platform değişimi? Yapay zeka monolit olmaktan çıkıyor; modüler süperzekaya dönüşüyor.

Ama – evet, şüphe benim işim – %88 yeter mi? Tıpta gibi yüksek risklerde? Hayır. Atılım, zirve değil. Microsoft PR’ı parlatıyor ama kağıt uç vakalarda boşlukları kabul ediyor. Yine de bugünkü karmaşadan ışık yılları önde.

Canlı benzetme: Kıyaslamalar şimdi şefi tek yemekle yargılamak gibi. ADeLe? Tam mutfak denetimi – bıçaklar keskin mi? Fırın sıcak mı? Yarın füzyon taco’yu vurur mu öngörüyor.

ADeLe Altında Nasıl Çalışıyor, Gerçekten?

Basit akış. Görevleri 18 yetenekte (0-5 talep) puanla. Modeli tonla görevde çalıştır, her yetenekte %50 başarı eşiğini çiz. Yeni görev gelince? Profilleri nokta çarpımı. Yüksek uyum? Ezip geçer. Düşük? Darbe bekle.

15 LLM’de test edildi, küçücükten 405B parametreye. Yeniler kazanıyor ama dengesiz – bilgi boyuta

ADeLe: %88 Yapay Zeka Performans Tahmini

Key Takeaways

ADeLe’yi Yapay Zeka Testlerinde Neden Oyun Değiştirici Yapan Şey?

ADeLe Günümüz Kıyaslamalarındaki Yalanı Tespit Edebilir mi?

Geliştiriciler (ve Diğer Herkes) Neden Hemen Umursamalı?

ADeLe Altında Nasıl Çalışıyor, Gerçekten?

Worth sharing?

⚡ Key Takeaways

ADeLe’yi Yapay Zeka Testlerinde Neden Oyun Değiştirici Yapan Şey?

ADeLe Günümüz Kıyaslamalarındaki Yalanı Tespit Edebilir mi?

Geliştiriciler (ve Diğer Herkes) Neden Hemen Umursamalı?

ADeLe Altında Nasıl Çalışıyor, Gerçekten?

Share this article

Worth sharing?

Related Stories

Hakem Olarak Yapay Zeka: LLM Çıktılarını Çözümlemek [Yeni Yaklaşımlar]

Yapay Zeka Yargıçları Sakat: Neden LLM Skorlarınız Çöp?

Mythos: İnsan Gözünün Açıp Kapamasıyla Bir Anda Hata Avlayan Yapay Zeka

Gerçek Trafikte 100 Pekiştirmeli Öğrenen Araç Otoyol Dur-Kalk Dalgalarını Ezdi

Key Takeaways