Panik Yapmayın: “İnsanlığın Son Sınavı” Başladı
Yapay zekâ sistemleri geleneksel akademik ölçütleri hızla aşarken, araştırmacılar makine zekâsının gerçek sınırlarını araştırmak için tasarlanmış iddialı yeni bir test ortaya koydular.
Gelişmiş yapay zekâ sistemleri yerleşik akademik testlerde neredeyse mükemmel notlar almaya başladığında, araştırmacılar artan bir endişeyi fark ettiler. Bir zamanlar ciddi zorluklar oluşturan sınavlar, artık en ileri yapay zekâyı anlamlı bir şekilde değerlendirmek için yeterince zor değildi. Daha önce titiz olarak görülen Büyük Çoklu Görev Dil Anlama (MMLU) sınavı gibi bilinen ölçütler, yapay zekâ yeteneğindeki gerçek ilerlemeyi ayırt etmede daha az etkili hale geldi.
Buna karşılık, Texas A&M Üniversitesi’nden bir profesör de dahil olmak üzere yaklaşık 1000 araştırmacıdan oluşan uluslararası bir grup, çok daha zorlu bir değerlendirme geliştirdi. Amaçları, günümüzün yapay zekâ sistemlerinin geçmekte zorlanacağı kadar kapsamlı ve özel insan uzmanlığına dayalı bir sınav tasarlamaktı.
Sonuç, matematik, beşeri bilimler, doğa bilimleri, eski diller ve son derece uzmanlaşmış akademik alanları kapsayan 2500 soruluk bir test olan “İnsanlığın Son Sınavı” (HLE) oldu. Proje, Nature dergisinde yayınlanan bir makalede açıklanmıştır ve ek ayrıntılara lastexam.ai adresinden ulaşılabilir.
Katkıda bulunanlardan biri de Texas A&M Üniversitesi Bilgisayar Bilimleri ve Mühendisliği Bölümü’nde öğretim görevlisi olan Dr. Tung Nguyen’dir. Değerlendirme için soruların yazılmasına ve iyileştirilmesine yardımcı oldu.
Nguyen, “Yapay zeka sistemleri insan ölçütlerinde son derece iyi performans göstermeye başladığında, insan düzeyinde anlayışa yaklaştıklarını düşünmek cazip geliyor,” dedi. “Ancak HLE bize zekanın sadece örüntü tanıma ile ilgili olmadığını, derinlik, bağlam ve uzmanlıkla ilgili olduğunu hatırlatıyor.”
Amaç insanları şaşırtmak değildi. Amaç, yapay zekanın en azından henüz yapamadığı şeyleri kesin ve sistematik bir şekilde ortaya koymaktı.
Yapay zekanın sınırlarını ölçmek için küresel bir çaba
Dünyanın dört bir yanından uzmanlar HLE sorularını hazırladı ve gözden geçirdi. Her bir madde, net ve doğrulanabilir bir cevaba sahip olmalı ve hızlı çevrimiçi aramalarla çözülmeye karşı dirençli olmalıdır. Materyal, eski Palmira yazıtlarının çevirisinden kuşlardaki küçük anatomik yapıların tanımlanmasına ve İncil İbranicesinin ayrıntılı ses kalıplarının incelenmesine kadar uzanan ileri düzey bilimsel çalışmaları yansıtmaktadır.
Her soru, eklenmeden önce önde gelen yapay zeka sistemlerinde test edildi. Bir model doğru cevabı verirse, o soru elendi. Bu süreç, final sınavının mevcut yapay zeka performansının hemen ötesinde kalmasını sağladı.
Sonuçlar, değerlendirmenin ne kadar zor olduğunu gösteriyor. İlk testler, en iyi modellerin bile zorlandığını ortaya koydu. GPT-4o %2,7 puan aldı. Claude 3.5 Sonnet %4,1’e ulaştı. OpenAI’nin o1 modeli %8’e ulaştı. Gemini 3.1 Pro ve Claude Opus 4.6 dahil olmak üzere daha yeni sistemler, yaklaşık %40-50 doğruluk oranına ulaştı, ancak yine de tam bir ustalık sergilemiyorlar.
Yeni bir kıyaslama neden önemli?
Nguyen’e göre, yapay zekanın eski kıyaslamaları aşması gerçek dünyada sonuçlar doğuruyor. 2.500 kamu sorusunun 73’ünü (en çok katkıda bulunan ikinci yazar) kendisi yazdı ve matematik ve bilgisayar bilimlerinde diğer tüm katkıda bulunanlardan daha fazla soru yazdı.
“Doğru değerlendirme araçları olmadan, politika yapıcılar, geliştiriciler ve kullanıcılar yapay zeka sistemlerinin gerçekte neler yapabileceğini yanlış yorumlama riskiyle karşı karşıya kalırlar,” dedi. “Kıyaslama ölçütleri, ilerlemeyi ölçmek ve riskleri belirlemek için temel oluşturur.”
Ekibin makalesinde açıklandığı gibi, insan tarafından tasarlanmış sınavlarda yüksek puanlar otomatik olarak gerçek zekayı göstermez. Bu tür testler, makineler için değil, insanlar için oluşturulmuş görevlerdeki performansı ölçer. Güçlü sonuçlar, derin bir anlayıştan ziyade kalıp eşleştirmeyi yansıtabilir.
Tehdit değil, araç
Kıyametvari ismine rağmen, İnsanlığın Son Sınavı, insanlığın öneminin sonunu ima etmek için tasarlanmamıştır. Bunun yerine, ne kadar bilginin benzersiz bir şekilde insana özgü olduğunu ve yapay zeka sistemlerinin hala ne kadar yol kat etmesi gerektiğini vurgulamaktadır.
Nguyen, “Bu, yapay zekaya karşı bir yarış değil,” dedi. “Bu, bu sistemlerin nerede güçlü ve nerede zorlandığını anlamak için bir yöntemdir. Bu anlayış, daha güvenli ve daha güvenilir teknolojiler geliştirmemize yardımcı olur. Ve en önemlisi, insan uzmanlığının neden hala önemli olduğunu bize hatırlatır.”
Geleceğe yönelik bir sınav
HLE, gelişmiş yapay zeka sistemlerini değerlendirmek için uzun vadeli, şeffaf bir ölçüt olarak hizmet etmeyi amaçlamaktadır. Bu misyonun bir parçası olarak, ekip sınavın bir kısmını kamuya açık hale getirirken, test sorularının çoğunu gizli tutarak yapay zeka modellerinin cevapları ezberlemesini engellemiştir.
Nguyen, “Şimdilik, İnsanlığın Son Sınavı, yapay zeka ile insan zekası arasındaki uçurumun en net değerlendirmelerinden biri olarak duruyor,” dedi, “ve hızlı teknolojik gelişmelere rağmen, bu uçurum hala geniş.”
Büyük Ölçekli Araştırma
Nguyen, bu devasa projenin disiplinlerarası ve uluslararası araştırma çabalarının önemini yansıttığını belirtti.
“Bu projeyi olağanüstü kılan şey ölçeğiydi,” dedi. “Neredeyse her disiplinden uzmanlar katkıda bulundu. Sadece bilgisayar bilimcileri değil; tarihçiler, fizikçiler, dilbilimciler, tıp araştırmacıları da vardı. Bu çeşitlilik, günümüzün yapay zeka sistemlerindeki boşlukları ortaya koyan şeydir – belki de ironik bir şekilde, birlikte çalışan insanlardır.”
Kaynak: https://scitechdaily.com
