Yapay zekâ modellerine yönelik yeni bir performans testi oluşturuldu. Yapay zekâ bölümünün kâr maksadı gütmeyen kuruluşlarından Center for AI Safety (CAIS) ile Scale AI isimli şirket tarafından geliştirilen bu performans testi, en yeterli yapay zekâ modellerini bile zorlayan türden.
“Humanity’s Last Exam” olarak isimlendirilen yeni performans testi, pek çok kategoride zorlayıcı sorulara ev sahipliği yapıyor. Yapılan açıklamalara nazaran bu testte matematik, beşeri bilimler ve tabiat bilimleri üzere onlarca mevzuda, 3.000 civarı soru bulunuyor. Geliştiriciler, testin nitekim belirleyici olması için grafikler, diyagramlar ve görseller kullanmayı da ihmal etmediler.
En güzel yapay zekâ modeli bile tüm soruları çözemiyor
Humanity’s Last Exam, nitekim zorlayıcı bir performans testi olacak üzere görünüyor. Çünkü yapılan çalışmalara nazaran piyasadaki amiral gemisi yapay zekâ modelleri, bu performans testinde yüzde 100 muvaffakiyete ulaşamadılar. Hatta 2021 yılında yayımlanan matematik odaklı testlerde erken basamaktaki yapay zekâ modelleri, 100 üzerinden 10 puan bile alamamışlardı.
Humanity’s Last Exam’in ortaya çıkarılması için 50’den fazla ülkede 1.000 kadar kişiden dayanak alındı. Projeye dayanak olan isimler araştırmacılar ve profesörlerden oluşuyordu. Hâl bu türlü olunca bu performans testi, gelecekte kesim için değerli bir kıstas olabilir gibi görünüyor. Bu testte sorulan kimi örnek soruları incelemek isterseniz buradaki ilişkiyi kullanabilirsiniz.