Yapay Zeka Dil Modelleri Sadece On Yılda Nasıl Bu Kadar İlerleme Kaydetti?

Yapay Zeka Dil Modelleri Sadece On Yılda Nasıl Bu Kadar İlerleme Kaydetti?

Yapay Zeka Dil Modelleri Sadece On Yılda Nasıl Bu Kadar İlerleme Kaydetti?

Bir grup araştırmacı, 2012’den günümüze kadar büyük dil modellerinin büyümesini analiz etti ve şu soruyu yanıtlamaya çalıştı: Bu büyümeyi mümkün kılan neydi?

Bilim insanlarının gösterdiği gibi, dil modellerinin geliştirilmesindeki ilerlemeyi iki faktör etkilemiştir: algoritmik yenilik ve bilgi işlem gücünün büyümesi. Şimdi bilgi işlem gücü daha önemli, ancak muhtemelen her zaman böyle olmayacak.



2012 yılında en iyi dil modelleri, tutarlı cümleler kurmakta zorlanan küçük tekrarlayan ağlardı. Ancak bugüne geldiğimizde, GPT-4 gibi büyük dil modellerinin SAT sınavında çoğu Amerikan üniversite adayından daha iyi performans gösterdiğini görüyoruz. Bu kadar hızlı ilerleme nasıl mümkün oldu?

Yeni bir makalede araştırmacılar bu soruyu ele almak için yola çıktılar. Çalışmaları, dil modellerindeki ilerlemenin itici güçlerini iki faktöre ayırıyor: dil modellerini eğitmek için kullanılan hesaplama miktarındaki artış ve algoritmik yenilik.

Çalışmanın sonuçları, algoritma iyileştirmeleri sayesinde, bir dil modelini belirli bir performans düzeyine eğitmek için gereken hesaplama miktarının yaklaşık her sekiz ayda bir yarı yarıya azaldığını gösteriyor.

Makalenin yazarlarından Anson Ho, “Bu sonuç, dil modellerinin hem geçmişteki hem de gelecekteki gelişimini anlamak açısından kritik önem taşıyor” diyor.

“Ölçeklendirme hesaplamaları çok önemli olsa da, yine de yalnızca bir husustur. Resmin tamamını görebilmek için algoritma icadındaki inanılmaz ilerlemeyi de hesaba katmak gerekir.”

“Dinozorlar” çağından (2012) günümüze (2024)

Çalışmada analiz edilen 231 dil modelinden 8'den fazla hesaplama büyüklüğündeki modellerin log karmaşıklığı.  Her şekil bir modeli temsil etmektedir.  Şeklin boyutu eğitim sırasında kullanılan hesaplama sayısıyla orantılıdır.  arXiv (2024).

Makalenin metodolojisi “nöral ölçeklendirme yasalarına” dayanmaktadır: belirli miktarlarda hesaplama, eğitim verileri veya dil modeli parametreleri verildiğinde bir dil modelinin performansını tahmin eden matematiksel ilişkiler.

Araştırmacılar 2012 yılına ait 231 dil modelinden oluşan bir veri kümesi toplamış ve yalnızca hesaplama gücünü değil aynı zamanda algoritmik iyileştirmeleri de dikkate alan bir “değiştirilmiş sinirsel ölçeklendirme yasası” geliştirmiştir.

Bu modele dayanarak yazarlar, hesaplamalı ölçeklendirmenin hala algoritmik yeniliklerden daha önemli olduğunu gösterdiler. Aslında, algoritmik iyileştirmelerin göreceli öneminin zaman içinde azaldığını tespit ettiler.

Makalenin yazarlarından Tamay Beşiroğlu, “Bu, algoritmalardaki inovasyonun yavaşladığı anlamına gelmiyor” diyor. “Bizim tercih ettiğimiz açıklama, algoritmik ilerleme kabaca sabit kalırken, hesaplama hacminin önemli ölçüde artarak algoritmik iyileştirmeleri nispeten daha az önemli hale getirmesidir.”

Yazarların hesaplamaları bu kavramı destekliyor: hesaplama kaynaklarının büyümesinde bir hızlanma buluyorlar, ancak algoritmik gelişmelerde bir hızlanma veya yavaşlama olduğuna dair bir kanıt bulamıyorlar.

Transformatör

Araştırmacılar, modeli biraz değiştirerek, makine öğrenimi tarihindeki önemli bir yeniliğin önemini ölçtüler: bu, 2017’de piyasaya sürülmesinden bu yana baskın dil modeli mimarisi haline gelen Transformer’dır.

Yazarlar, Transformer tarafından sağlanan verimlilik kazanımlarının, bu alandaki yaklaşık iki yıllık algoritmik ilerlemeye karşılık geldiğini tespit ederek buluşun önemini vurgulamışlardır.

Ölçeğine rağmen, çalışmanın çeşitli sınırlamaları var. Ho şöyle diyor: “Yaklaşımımız, dil modellerinin özelleştirilebildiği programlama ve matematik gibi diğer görevlerdeki algoritmik ilerlemeyi de ölçmüyor.”

Geleceği tahmin etmek
Çalışmanın sonuçları, YZ’deki gelecekteki gelişmelerin nasıl evrilebileceğini değerlendirmeye yardımcı oluyor ve bu da YZ politikası için önemli sonuçlar doğuracak.

Makalenin ortak yazarı ve MIT FutureTech direktörü Neil Thompson, “Bu çalışma, YZ’nin daha da demokratikleştiğinin altını çiziyor” diyor.

“Bu algoritmik performans iyileştirmeleri, her yıl daha önce erişilemeyen YZ performans seviyelerinin giderek daha fazla kullanıcı tarafından kullanılabilir hale geldiği anlamına geliyor.”

Lukas Finnveden ise şunları söylüyor: “Bu makale, gelecekte ne kadar ilerleme beklememiz gerektiğini ve toplumun yeni gelişmelere hazırlanmasına neyin yardımcı olacağını doğrudan tahmin ettiği için beni çok heyecanlandıran bir soruyu gündeme getiriyor. Genel olarak sonuçlar, hesaplama bütçeleri yılda 4 kattan fazla artmaya devam ettiği sürece, artan hesaplamanın büyük dil modellerinin ilerlemesinin çoğundan sorumlu olduğunu ve olacağını göstermektedir. Ancak durum her zaman böyle olmayacak gibi görünüyor. Yatırım artış hızı yavaşlarsa, algoritma geliştirmedeki ilerleme ön plana çıkacaktır.”

Derleyen: Feyza ÇETİNKOL

Kaynak: Yapay Zeka Dil Modelleri Sadece On Yılda Nasıl Bu Kadar İlerleme Kaydetti?

Saatte 804.672 Km Hızla Gidebilecek Bir Füzyon Roketi Yapım Aşamasında

Bir yanıt yazın

Bu site, istenmeyenleri azaltmak için Akismet kullanıyor. Yorum verilerinizin nasıl işlendiği hakkında daha fazla bilgi edinin.

Çok Okunan Yazılar