2032 Yılına Kadar Yapay Zeka Tüm Kelimeleri Öğrenecek

2032 Yılına Kadar Yapay Zeka Tüm Kelimeleri Öğrenecek

2032 Yılına Kadar Yapay Zeka Tüm Kelimeleri Öğrenecek

Araştırmacılar, büyük YZ dil modellerinin hesaplama gücündeki mevcut büyümeyle birlikte, insan tarafından oluşturulan kamusal içeriğin önümüzdeki on yılın başında tükeneceği sonucuna vardılar. Bu durum, YZ modellerinin büyümesinde bir yavaşlamaya ve eğitim stratejilerinde bir değişikliğe yol açacaktır.

İnsanlar yavaş ve az yazarlar. Yapay zeka modelleri öğrenmek için trilyonlarca kelime kullanıyor. YZ modelleri çok hızlı büyüyor ve insan tarafından üretilen içerik gibi bir kaynak yakında tükenecek. Ancak yapay zeka henüz kendisinden öğrenemiyor.

Çalışma, teknoloji şirketlerinin GPT gibi büyük dil modellerini eğitmek için kamuya açık verilerin yakında tükeneceğini ortaya koydu. Bu durum 2026 ile 2032 yılları arasında gerçekleşecek.

Bilgi işlem gücü ve model hacmindeki mevcut büyüme oranında, LLM’ler zor bir sorunla karşı karşıya kalacak: en önemli öğrenme kaynağı olan insan tarafından oluşturulan metinler tükenecek.

İnsanların kelimeleri tükendiğinde yapay zeka ne öğrenecek?

Yapay zeka geliştiricileri ne yapacak? Çok fazla seçenek yok. Bunlar, e-posta yazışmaları ve telefon konuşmaları gibi hassas veriler ve YZ sistemlerinin kendi ürettikleri “sentetik veriler”.

Kişisel bilgilerle ilgili sorunlar çok açık. Günümüzde çok az insan e-postalarını ve mesajlarını yapay zeka eğitimi için vermeye istekli. Sentetik veriler daha umut verici bir yön.

Ancak onun da sorunları var. Yapay zekanın kendi verilerinden ne öğreneceği belli değil. Yapay zekanın kendi hatalarını ve önyargılarını tekrarlayacağı ve pekiştireceği “model çöküşü” olarak bilinen durum söz konusu olabilir.

Epoch çalışmasına göre, dil modelleri tarafından kullanılan metinsel veri miktarı yılda yaklaşık 2,5 kat, hesaplama miktarı ise yılda yaklaşık 4 kat artıyor. Örneğin LLM’nin en büyük versiyonu olan Llama 3, her biri bir kelime ya da kelimenin bir parçası olan 15 trilyon token üzerinde eğitilmiştir.

Nicholas Paperno, başka bir yol daha olduğuna inanıyor: agresif bir şekilde hacim ve kapasite oluşturmak zorunda değilsiniz, ancak uzmanlaşmış sistemler geliştirebilirsiniz.

Ancak bugün durum biraz farklı görünüyor. Önce Llama 3 gibi devasa bir model eğitiliyor ve ardından bu model belirli bir veri alanı için uzmanlaştırılıyor. Şimdiye kadar iyi işliyor, ancak sınırlı kaynaklarla uzmanlaşmış bir modeli bir kerede eğitmenin mümkün olup olmadığı belirsiz.

Değerli kelimeler
İnsan tarafından üretilen içerik yapay zeka verilerinin en önemli kaynağı olmaya devam ederse, Reddit ve Wikipedia, haber ve kitap siteleri gibi “kaliteli verileri” yönetenler gerçek hazinelerin sahibi olacaklar.

Wikimedia Vakfı Ürün ve Teknoloji Direktörü Selena Dekelmann şöyle diyor: “Şu anda ortaya çıkan ilginç bir sorun var: ‘doğal kaynaklar’, yani insan tarafından üretilen veriler hakkında konuşmalar yapıyoruz. Şimdilik şaka gibi ama şaşırtıcı.” Wikipedia şu ana kadar içeriğinin yapay zekayı eğitmek için kullanılması konusunda çok az kısıtlama getirdi.

Sam Altman ne diyor?

Сэм Альтман, OpenAI

ChatGPT’nin geliştiricisi OpenAI’nin CEO’su Sam Altman, geçen ay BM’ye verdiği demeçte, şirketin eğitim için “büyük miktarlarda sentetik veri üretmeyi” denediğini söyledi.

Altman şöyle dedi: “Bence herkes yüksek kaliteli veri istiyor. Düşük kaliteli sentetik veriler var. Düşük kaliteli insan verisi var.” Ancak yapay zeka modellerini geliştirmek için yalnızca sentetik verilere güvenme konusunda şüphelerini de dile getirdi: “Bir modeli eğitmenin en iyi yolunun katrilyonlarca sentetik veri oluşturmak ve bunları tekrar yüklemek olması çok garip bir şey olurdu. Bir şekilde bu verimsiz görünüyor.”

Derleyen: Feyza ÇETİNKOL

Kaynak: 2032 Yılına Kadar Yapay Zeka Tüm Kelimeleri Öğrenecek

Yapay Zekadan Oluşan Bir Cihaz Kanserin “Kokusunu” Alabiliyor

 

One thought on “2032 Yılına Kadar Yapay Zeka Tüm Kelimeleri Öğrenecek

Bir yanıt yazın

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Çok Okunan Yazılar