ChatGPT Turing Testini Geçmiş Olabilir
1637 yılında Fransız filozof René Descartes ilginç bir düşünce ortaya attı: Bir makine düşünebilir mi? 1950 yılında İngiliz matematikçi ve bilgisayar bilimcisi Alan Turing, 300 yıllık bu sorunun cevabını açıkladı: Kimin umurunda? Çok daha iyi bir sorunun “Turing testi” olarak bilinen bir şey olduğunu söyledi: Bir insan, bir makine ve bir insan sorgucu verildiğinde, makine sorgucuyu gerçekten insan olduğuna ikna edebilir mi?
Turing’in soruyu bu şekilde yeniden formüle etmesinden 74 yıl sonra, San Diego’daki California Üniversitesi’nden araştırmacılar cevabı bulduklarına inanıyorlar. İnsan katılımcıları ya çeşitli yapay zeka sistemlerinden biriyle ya da başka bir insanla beş dakika boyunca konuşturdukları yeni bir çalışmaya göre, cevap artık geçici bir “evet”.
Henüz hakem değerlendirmesinden geçmemiş olan ön baskı makalesi, “Deneyimize katılanlar, beş dakikalık bir konuşmadan sonra GPT-4’ü tanımlamada şanstan daha iyi değildi, bu da mevcut yapay zeka sistemlerinin insanları insan olduklarına inanmaları için kandırabileceğini gösteriyor” diyor. “Buradaki sonuçlar, deneysel ortamdan farklı olarak, insanların aldatma olasılığına karşı uyanık olmayabileceği veya yalnızca bunu tespit etmeye odaklanamayabileceği daha doğal bağlamlarda aldatma potansiyeline muhtemelen bir alt sınır koymaktadır.”
Şimdi, bu kesinlikle manşetlere taşınan bir dönüm noktası olsa da, hiçbir şekilde evrensel olarak kabul edilen bir dönüm noktası değildir. Araştırmacılar, “Turing başlangıçta taklit oyununu bir zeka ölçütü olarak öngörmüştü” diye açıklıyorlar, ancak “bu fikre çeşitli itirazlar geldi.” Örneğin, insanlar hemen her şeyi antropomorfize etmekte oldukça başarılıdır – ister başka bir insan, ister bir köpek, isterse de üzerine bir çift yapışkan göz takılmış bir Roomba olsun, nesnelerle empati kurmak isteriz.
Bunun da ötesinde, ChatGPT-4’ün – ve aynı zamanda test edilen ChatGPT-3.5’in – insan katılımcıları kişiliği konusunda yalnızca yüzde 50 oranında ikna etmesi dikkat çekicidir – rastgele şanstan çok daha iyi değildir. Peki bu sonucun bir anlamı olduğunu nereden biliyoruz?
Ekibin deney tasarımına dahil ettiği bir güvenlik önlemi, yapay zeka sistemlerinden biri olarak ELIZA’yı dahil etmekti. ELIZA, 60’lı yılların ortalarında MIT’de oluşturulan bu tür ilk programlardan biriydi ve o zaman için şüphesiz etkileyici olsa da, modern büyük dil modeli veya LLM tabanlı sistemlerden pek farklı olmadığını söylemek doğru olur.
“ELIZA konserve yanıtlarla sınırlıydı ve bu da yeteneklerini büyük ölçüde kısıtlıyordu. Birini beş dakikalığına kandırabilirdi ama kısa süre sonra sınırlamaları ortaya çıkardı,” diyor Elektrik ve Elektronik Mühendisleri Enstitüsü’nde (IEEE) yapay zeka araştırmacısı olan Nell Watson Live Science’a. “Dil modelleri sonsuz esnekliğe sahip, çok çeşitli konulara yanıtlar sentezleyebiliyor, belirli dillerde veya sosyoeklektlerde konuşabiliyor ve kendilerini karakter odaklı kişilik ve değerlerle tasvir edebiliyor. Bu, ne kadar akıllıca ve dikkatli olursa olsun, bir insan tarafından elle programlanan bir şeyden ileriye doğru atılmış muazzam bir adımdır.”
Başka bir deyişle, deneye temel teşkil etmek için mükemmeldi. Tembel deneklerin “insan” ya da “makine” arasında rastgele seçim yapmasını nasıl açıklarsınız? Eğer ELIZA rastgele şans kadar yüksek puan alırsa, o zaman muhtemelen insanlar deneyi ciddiye almıyorlardır – o kadar da iyi değildir. Etkinin ne kadarının insanların etkileşime girdikleri her şeyi antropomorfize etmesinden kaynaklandığını nasıl anlarsınız? ELIZA onları ne kadar ikna etti? Muhtemelen o kadardır.
Aslında, ELIZA yüzde 22 puan aldı – beş kişiden ancak birinden fazlasını insan olduğuna ikna etti. Araştırmacılar, bu durumun ChatGPT’nin Turing testini gerçekten geçtiği fikrine ağırlık kazandırdığını, çünkü deneklerin bazı bilgisayarları insanlardan güvenilir bir şekilde ayırt edebildiğini, sadece ChatGPT’yi ayırt edemediğini belirtiyor.
Peki bu, insan benzeri yapay zekânın yeni bir aşamasına girdiğimiz anlamına mı geliyor? Bilgisayarlar artık bizim kadar zeki mi? Belki de – ama muhtemelen bu konuda aceleci davranmamalıyız.
Araştırmacılar, “Sonuç olarak, Turing testinin zeka için gerekli ya da yeterli kanıt sağlaması pek mümkün görünmüyor, ancak en iyi ihtimalle olasılıksal destek sağlıyor” diye açıklıyor. Aslında, katılımcılar “zeka” belirtileri olarak kabul edebileceğiniz şeylere bile güvenmiyorlardı: “bilgi ve muhakeme gibi daha geleneksel zeka kavramlarından ziyade dilsel stil ve sosyo-duygusal faktörlere daha fazla odaklanmışlardı”, “bu da sorgulayıcıların sosyal zekanın makineler tarafından en taklit edilemez insan özelliği haline geldiği yönündeki gizli varsayımını yansıtıyor olabilir.”
Bu da endişe verici bir soruyu gündeme getiriyor: Makinelerin yükselişinden ziyade, daha büyük sorun insanların düşüşü mü?
Tech Xplore’a konuşan makalenin yazarlarından Cameron Jones, “Her ne kadar gerçek insanlar sorgulayanları üçte iki oranında insan olduklarına ikna ederek daha başarılı olsalar da, sonuçlarımız gerçek dünyada insanların bir insanla mı yoksa bir yapay zeka sistemiyle mi konuştuklarını güvenilir bir şekilde anlayamayabileceklerini gösteriyor” dedi.
“Aslında, gerçek dünyada insanlar bir YZ sistemiyle konuştuklarının daha az farkında olabilirler, bu nedenle aldatma oranı daha da yüksek olabilir” diye uyardı. “Bunun, ister müşteriye yönelik işleri otomatikleştirmek isterse dolandırıcılık veya yanlış bilgilendirme için kullanılsın, YZ sistemlerinin kullanılacağı türden şeyler üzerinde etkileri olabileceğini düşünüyorum.”
Kaynak: https://www.iflscience.com
Derleyen: Figen Berber
Ölümsüzlüğün 2030 Yılına Kadar Elde Edilebileceği Tahmin Ediliyor
