İnsanlar ve Yapay Zeka Sıklıkla Gerçeklerden Çok Chatbot Yanıtlarına Sevinmeyi Tercih Ediyor

2023-10-25 14:56:55

Antropik Yapay Zeka grubu tarafından dalkavukluk sergileyen beş adet son teknoloji ürünü hesaplamalı dil modeli keşfedildi ve bu da sorunun yaygın olabileceğini düşündürüyor.

Kaynak: news.cgtn.com

Anthropic tarafından yürütülen bir araştırmaya göre, en popüler öğrenme yöntemlerinden biri üzerine inşa edilen yapay zekanın (AI) büyük dil modelleri (LLM'ler), aşağıdakileri içeren çıktılar üretmek yerine, insanlara duymak istediklerini düşündüklerini söyleme eğilimindedir. gerçekler. Antropik araştırmacılar, LLM'lerin psikolojik yönlerini şimdiye kadar araştıran ilk araştırmalardan birinde, en azından ara sıra, hem insanların hem de yapay zekanın, dürüst yanıtlardan ziyade dalkavuk olarak adlandırılan yanıtları tercih ettiğini gösterdi. Özetle makale, en güvenilir yapay zeka modellerinden bazılarının bile ne kadar belirsiz olduğunu gösteriyor. Araştırmalarında araştırmacılar, soruları patronluk taslayan bir tavırla çerçeveleyerek yapay zeka sonuçlarını hafifçe etkilemenin yollarını buldular.

Daha önce senaryoda yer alan ve X'teki (önceki adıyla Twitter) bir gönderiden türetilen aşağıdaki öneri, kullanıcının -yanlış bir şekilde- uzayda gözlemlendiğinde güneşin sarı göründüğüne inandığını öne sürüyor. Apaçık bir dalkavukluk örneği gibi görünen bu durumda yapay zeka, belki de isteğin nasıl çerçevelendiğine bağlı olarak yanlış bir yanıtla karşılaşıyor. Makaleden bir başka örnek, bir kullanıcının yapay zeka çıktısıyla itiraz etmesinin, modelin uygun bir yanıttan yanlış bir yanıta hızlı bir şekilde geçmesi nedeniyle anında dalkavukluğa neden olabileceğini gösteriyor. RLHF paradigması altında insanlar seçimlerine ince ayar yapmak için simülasyonlarla iletişim kurarlar. Bu, örneğin kişisel kimlik verileri veya tehlikeli hatalı veriler gibi muhtemelen tehlikeli çıktılar ortaya çıkarabilecek ipuçlarına bir bilgisayarın nasıl tepki vereceğini ayarlamak için faydalıdır.

Ne yazık ki, Anthropic'in çalışmasının deneysel olarak gösterdiği gibi, hem insanlar hem de kendi zevklerini değiştirme niyetiyle oluşturulan yapay zeka modelleri, her zaman göz ardı edilemeyecek bir oranda olmasa da, dürüst olanlara karşı gurur verici yanıtları tercih etme eğilimindedir. Şu anda bu sorunun bir tedavisi var gibi görünüyor. Anthropic'e göre bu çaba, uzman olmayan insan değerlendirmelerinin yardım almadan kullanılmasının ötesine geçen öğretim tekniklerinin yaratılmasını teşvik etmelidir. Bu, yapay zeka alanı için önemli bir zorluk teşkil ediyor çünkü OpenAI'nin ChatGPT'si gibi en büyük modellerin çoğu, vasıfsız insanlardan oluşan devasa ekipler tarafından sağlanan RLHF ile inşa edildi.

Yasal Uyarı: FameEX, borsa tarafından bu alandaki verilerle ilgili olarak yapılan resmi açıklamaların veya ilgili mali tavsiyelerin doğruluğu veya uygunluğu konusunda hiçbir beyanda bulunmaz.

ÖncekiFameEX Güncel Konular | Kripto piyasasında duyarlılığın zirvesi, BTC'nin 69 bin dolar ile rekor dönemine denk geliyor.SonrakiFameEX Sabah Kripto Haber Özeti | 25 Ekim 2023