AI Research

ADeLe: %88 Yapay Zeka Performans Tahmini

Yapay zekanızın bir görevde neden patladığını önceden bilmek... Düşünün bir. ADeLe tam bunu yapıyor, GPT-4o gibi devlerde %88 doğrulukla tahmin tutturuyor.

ADeLe araştırmasından GPT-4o gibi yapay zeka modellerini karşılaştıran radyal yetenek profili grafikleri

Key Takeaways

  • ADeLe, 18 temel yetenek puanıyla görülmemiş görevlerde yapay zeka performansını %88 doğrulukla öngörüyor.
  • Güncel kıyaslamalardaki kusurları açığa çıkarıyor: gizli yetenek bağımlılıkları ve dar zorluk aralıkları gibi.
  • Model profilleri güçlü/zayıf yönleri göstererek daha akıllı seçim ve dağıtım yolunu açıyor.

%88 doğruluk. Yanlış okumadınız. Araştırmacılar, herhangi bir yapay zeka modelinin tamamen yeni görevlerde nasıl performans göstereceğini öngörmenin yolunu buldu – GPT-4o ve Llama-3.1 gibi devlerde bile %88 başarıyla.

Şu anki yapay zeka kıyaslamalarını düşünün: Adama direksiyon sınavı, satranç bulmacası ve bilgi yarışması verip ortalamayı alıp ‘akıllı’ demek gibi. Gerçek hayatta işe yaramaz. Ama ADeLe? Yapay zeka beyninin GPS’i.

Ve asıl bomba burada.

Microsoft ekibi, Princeton ve İspanyol akıllılarla Nature’da bu patlamayı bıraktı. Adı ADeLe – Talep Seviyelerine Göre Yapay Zeka Değerlendirmesi. Dağınık testler yerine her şeyi 18 temel yeteneğe indirgiyor: mantık yürütme, dikkat, alan bilgisi, aklınıza ne gelirse. Görevler her birinde 0-5 puan alıyor. Modeller de aynı şekilde profilleniyor. Pat – eşleştir, performansı öngör.

ADeLe’yi Yapay Zeka Testlerinde Neden Oyun Değiştirici Yapan Şey?

Süper kahraman keşif raporu gibi düşünün. Superman uçmada kral, sihirde zayıf? ADeLe bu radyal grafikler çiziyor – yetenek örümcek ağları – GPT-4o’nun sayısal mantıkta ezerken sosyal çıkarımda tökezlediğini net gösteriyor. Eski modeller her yerde geride; yeniler mantık ve soyutlamada uçuyor. Canlı. Görsel. Yapay zeka tahminini bilime çeviren harita bu.

Ama durun – başarısızlıkları da açıklıyor. Modelin çöktüğü kıyaslama? ADeLe diyor ki ‘aptal değil, sadece üstbilişten yoksun’ ya da görev gizli yetenek istiyor. Artık kara kutu gizemi yok.

ADeLe Günümüz Kıyaslamalarındaki Yalanı Tespit Edebilir mi?

Bakın, mevcut değerlendirmeler? Çökmüş vaziyette. Çoğu iddia ettiği şeyi bile test etmiyor. ‘Mantık’ testi trivia dolu? Var. Kolay galibiyetleri veya vahşi zorlukları kaçıran dar zorluk aralıkları? İki kat.

“Yaygın kullanılan pek çok kıyaslama, model yetenekleri hakkında eksik ve bazen yanıltıcı bir tablo sunuyor; daha yapılandırılmış bir yaklaşım bu boşlukları aydınlatıyor.”

Kağıttan doğrudan alıntı. ADeLe hepsini ifşa ediyor, görevleri puanlayıp uyumsuzlukları ortaya çıkarıyor. Daha iyi kıyaslama tasarlayın? Görünmeyenlerde çöküş öngörün? Halloldu.

Ve tahmin gücü – 15 LLM’de %88. Abartı değil; günlük kullandığınız devlerde laboratuvar testli.

Kısa paragraf: Çılgınca.

Şimdi benim sıcak yorumum – ve bunu kimse bağırmıyor henüz. SAT’yi hatırlayın? Üniversite başarısını fena öngörmüyordu, kabulcülere deneme yanılma olmadan potansiyele bahis oynatıyordu. ADeLe yapay zeka için o. ‘Yetenek pazarı’ eşiğindeyiz – görev taleplerini gir, model profillerini tara, kazananını seç. Dağıtımda Rus ruleti yok. İki yılda? Her kurumsal yapay zeka alımı ADeLe puanıyla başlar. Değerlendirmenin Moore Yasası: standart, ölçeklenebilir, öngörücü.

Geliştiriciler (ve Diğer Herkes) Neden Hemen Umursamalı?

Uygulama mı geliştiriyorsunuz? Toplu puanlara güvenmeyin. ADeLe profilleri Llama-3.1’in mantık yıldızı mı yoksa bilgi papağanı mı olduğunu gösteriyor. Dağıtımlar daha güvenli – prod’u batırmadan başarısızlıkları öngörün.

Büyütün: ADeLe’yle uzmanlaşmış ajan sürüleri hayal edin. Matematik için biri, sohbet için diğeri. Platform değişimi? Yapay zeka monolit olmaktan çıkıyor; modüler süperzekaya dönüşüyor.

Ama – evet, şüphe benim işim – %88 yeter mi? Tıpta gibi yüksek risklerde? Hayır. Atılım, zirve değil. Microsoft PR’ı parlatıyor ama kağıt uç vakalarda boşlukları kabul ediyor. Yine de bugünkü karmaşadan ışık yılları önde.

Canlı benzetme: Kıyaslamalar şimdi şefi tek yemekle yargılamak gibi. ADeLe? Tam mutfak denetimi – bıçaklar keskin mi? Fırın sıcak mı? Yarın füzyon taco’yu vurur mu öngörüyor.

ADeLe Altında Nasıl Çalışıyor, Gerçekten?

Basit akış. Görevleri 18 yetenekte (0-5 talep) puanla. Modeli tonla görevde çalıştır, her yetenekte %50 başarı eşiğini çiz. Yeni görev gelince? Profilleri nokta çarpımı. Yüksek uyum? Ezip geçer. Düşük? Darbe bekle.

15 LLM’de test edildi, küçücükten 405B parametreye. Yeniler kazanıyor ama dengesiz – bilgi boyuta

James Kowalski
Written by

Investigative tech reporter focused on AI ethics, regulation, and societal impact.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Microsoft Research AI