Yapay zeka sohbet robotu Turing testini geçti: Peki ya şimdi?

San Diego Kaliforniya Üniversitesi’nden iki araştırmacı tarafından yürütülen ve şimdi hakem değerlendirmesine sunulmamış olan çalışmada, dört büyük lisan modeli (LLM) Turing testine tabi tutuldu.
Test sonucunda OpenAI tarafından geliştirilen GPT-4.5 modeli, iştirakçiler tarafından yüzde 70’in üzerinde bir oranla insanlardan ayırt edilemedi.
İngiliz matematikçi ve bilgisayar bilimci Alan Turing tarafından 1950 yılında ortaya atılan Turing testi, bir makinenin insan üzere düşünüp düşünemediğini anlamayı amaçlayan bir deney olarak biliniyor.
Testte bir insan sorgulayıcı, biri insan oburu yapay zeka olan iki muhatapla yazılı olarak irtibat kuruyor ve hangisinin insan olduğunu ayırt etmeye çalışıyor.
Eğer sorgulayıcı bu ayrımı yapamazsa, testten geçen sistemin “insan gibisi zekâya sahip olduğu” kabul ediliyor.
Mart ayında yayımlanan ön çalışmada, ELIZA, GPT-4o, LLaMa-3.1-405B ve GPT-4.5 isimli dört yapay zekâ modeli test edildi. 284 iştirakçiden oluşan deney kümesinde her birey, birebir anda biri insan başkası yapay zekâ olan iki “tanıkla” beş dakikalık yazışmalar gerçekleştirdi.
Sonuçlara nazaran, iştirakçiler GPT-4.5’i insan zannederek yüzde 73 oranında yanıldı. LLaMa-3.1-405B için bu oran yüzde 56 olarak ölçülürken, ELIZA ve GPT-4o modelleri sırasıyla sırf yüzde 23 ve yüzde 21 oranında insan sanıldı.
Her ne kadar Turing testi, yıllardır yapay zekânın “zekâsını” ölçmek için kullanılan sembolik bir araç olsa da, geçerliliği konusunda bilim dünyasında tam bir fikir birliği bulunmuyor.
Davranış ile düşünme ortasındaki fark: Birtakım uzmanlar, testin sırf dışa vurulan davranışı ölçtüğünü, gerçek düşünme kapasitesini yansıtmadığını savunuyor.
Araştırmanın muharrirleri GPT-4.5’in testi geçtiğini kabul etmekle birlikte, bunun sistemin insan zekâsına sahip olduğu manasına gelmediğini vurguluyor. Yapay zekânın burada sadece “insan üzere görünmeyi” başardığı belirtiliyor.
Ayrıca, çalışmada kullanılan mühletlerin kısa olması ve modellerin belli “kişiliklere” büründürülmesi üzere değişkenlerin test sonuçlarını etkileyebileceği tabir ediliyor.
Uzmanlara nazaran, GPT-4.5 şimdilik beşerler kadar zeki değil. Lakin birtakım durumlarda insanları ikna edebilecek seviyede bir taklit yeteneğine sahip olduğu da göz arkası edilemez bir gerçek olarak öne çıkıyor.