Skip to content

Latest commit

 

History

History
335 lines (275 loc) · 27.4 KB

README_TU.md

File metadata and controls

335 lines (275 loc) · 27.4 KB

LANGUAGE TURKISH Türkçe

Müthiş RLHF (İnsan Geri Bildirimi ile RL)

Bu, İnsan Geri Bildirimiyle Güçlendirmeli Öğrenim (RLHF) için araştırma makalelerinin bir derlemesidir. Ve depo, RLHF sınırını izlemek için sürekli olarak güncellenecektir.

Takip etmeye ve yıldız vermeye hoş geldiniz!

İçindekiler

RLHF'ye Genel Bakış

RLHF fikri, bir dil modelini insan geri bildirimiyle doğrudan optimize etmek için pekiştirmeli öğrenme yöntemlerini kullanmaktır. RLHF, dil modellerinin genel bir metin verileri külliyatı üzerinde eğitilmiş bir modeli karmaşık insan değerlerininkiyle hizalamaya başlamasını sağladı.

  • Büyük Dil Modeli (LLM) için RLHF

image info

  • Video Oyunu için RLHF (ör. Atari)

image info

Detaylı açıklama

(Aşağıdaki bölüm ChatGPT tarafından otomatik olarak oluşturulmuştur)

RLHF tipik olarak "İnsan Geri Bildirimiyle Güçlendirmeli Öğrenme" anlamına gelir. Takviyeli Öğrenim (RL), ortamından gelen geri bildirime dayalı kararlar vermesi için bir aracıyı eğitmeyi içeren bir makine öğrenimi türüdür. RLHF'de aracı ayrıca, daha hızlı ve doğru bir şekilde öğrenmesine yardımcı olabilecek eylemlerinin derecelendirmeleri veya değerlendirmeleri şeklinde insanlardan geri bildirim alır.

RLHF, robotik, oyun ve kişiselleştirilmiş öneri sistemleri gibi alanlardaki uygulamalarıyla yapay zeka alanında aktif bir araştırma alanıdır. Temsilcinin ortamdan gelen geri bildirimlere sınırlı erişiminin olduğu ve performansını iyileştirmek için insan girdisine ihtiyaç duyduğu senaryolarda RL'nin zorluklarını ele almaya çalışır.

İnsan Geri Bildirimiyle Takviyeli Öğrenme (RLHF), yapay zeka alanında hızla gelişen bir araştırma alanıdır ve RLHF sistemlerinin performansını iyileştirmek için geliştirilmiş birkaç gelişmiş teknik vardır. İşte bazı örnekler:

  • Ters Takviyeli Öğrenme (IRL): IRL, aracının, önceden tanımlanmış ödül fonksiyonlarına güvenmek yerine insan geribildiriminden bir ödül fonksiyonu öğrenmesini sağlayan bir tekniktir. Bu, aracının, istenen davranışın gösterilmesi gibi daha karmaşık geri bildirim sinyallerinden öğrenmesini mümkün kılar.

  • "Çıraklık Eğitimi": Çıraklık öğrenimi, temsilcinin hem insan geri bildiriminden hem de uzman gösterilerinden öğrenmesini sağlamak için IRL'yi denetimli öğrenmeyle birleştiren bir tekniktir. Bu, temsilcinin hem olumlu hem de olumsuz geri bildirimlerden öğrenebildiği için daha hızlı ve etkili bir şekilde öğrenmesine yardımcı olabilir.

  • Etkileşimli Makine Öğrenimi (IML): IML, aracı ile insan uzman arasındaki aktif etkileşimi içeren ve uzmanın aracının eylemleri hakkında gerçek zamanlı olarak geri bildirim sağlamasına olanak tanıyan bir tekniktir. Bu, aracının öğrenme sürecinin her adımında eylemleri hakkında geri bildirim alabildiği için daha hızlı ve verimli bir şekilde öğrenmesine yardımcı olabilir.

  • İnsan-in-the-Loop Takviyeli Öğrenim (HITLRL): HITLRL, ödül şekillendirme, eylem seçimi ve politika optimizasyonu gibi insan geri bildirimini RL sürecine birden çok düzeyde entegre etmeyi içeren bir tekniktir. Bu, hem insanların hem de makinelerin güçlü yönlerinden yararlanarak RLHF sisteminin verimliliğini ve etkililiğini artırmaya yardımcı olabilir.

İşte İnsan Geri Bildirimi (RLHF) ile Güçlendirmeli Öğrenimden bazı örnekler:

  • Oyun Oynama: Oyun oynarken, insan geri bildirimi, temsilcinin farklı oyun senaryolarında etkili olan stratejileri ve taktikleri öğrenmesine yardımcı olabilir. Örneğin, popüler Go oyununda insan uzmanlar, temsilciye hareketleriyle ilgili geri bildirimde bulunarak, temsilcinin oynanışını ve karar verme sürecini iyileştirmesine yardımcı olabilir.

  • "Kişiselleştirilmiş Öneri Sistemleri": Öneri sistemlerinde, insan geri bildirimi, temsilcinin bireysel kullanıcıların tercihlerini öğrenmesine yardımcı olarak kişiselleştirilmiş öneriler sunmayı mümkün kılar. Örneğin temsilci, hangi özelliklerin onlar için en önemli olduğunu öğrenmek için önerilen ürünlerle ilgili kullanıcılardan gelen geri bildirimleri kullanabilir.

  • "Robotik": Robotikte insan geri bildirimi, aracının fiziksel çevreyle güvenli ve verimli bir şekilde nasıl etkileşim kuracağını öğrenmesine yardımcı olabilir. Örneğin, bir robot, bir insan operatörden alınacak en iyi yol veya hangi nesnelerden kaçınılması gerektiği konusunda geri bildirim alarak yeni bir ortamda daha hızlı gezinmeyi öğrenebilir.

  • "Eğitim": Eğitimde, insan geri bildirimi aracının öğrencilere nasıl daha etkili bir şekilde öğreteceğini öğrenmesine yardımcı olabilir. Örneğin, yapay zeka tabanlı bir öğretmen, hangi öğretim stratejilerinin farklı öğrencilerle en iyi şekilde çalıştığı konusunda öğretmenlerden gelen geri bildirimleri kullanarak öğrenme deneyimini kişiselleştirmeye yardımcı olabilir.

Makaleler

biçim:
- [başlık](kağıt bağlantı) [bağlantılar]
  - yazar1, yazar2 ve yazar3...
  - Yayımcı
  - anahtar kelime
  - kod
  - deney ortamları ve veri kümeleri

2023

2022

2021

2020 and Öncesi

##Google Makale Türk -CHATGPT İLE ÜRETİLEN İÇERİKLERİN ESER NİTELİĞİNİN 5846 SAYILI FİKİR VE SANAT ESERLERİ KANUNU BAKIMINDAN DEĞERLENDİRİLMESİ

-JOURNAL OF TOURISM AND GASTRONOMY STUDIES

Kod tabanları

biçim:
- [başlık](kod tabanı bağlantısı) [bağlantılar]
  - yazar1, yazar2 ve yazar3...
  - anahtar kelime
  - deney ortamları, veri kümeleri veya görevler
  • PaLM + RLHF - Pytorch
    • Phil Wang, Yachine Zahidi, Ikko Eltociear Ashimine, Eric Alcaide
    • Anahtar Kelime: Transformatörler, PaLM mimarisi
    • Dataset: enwik8
  • lm-insan-tercihleri
    • Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving
    • Anahtar Sözcük: Dil öğrenmeyi ödüllendirme, Olumlu duygularla devam eden metin, Özet görev, Fiziksel betimleyici
    • Dataset: TL;DR, CNN/DM
  • takip-talimatları-insan-geri bildirimi
    • Long Ouyang, Jeff Wu, Xu Jiang, et al.
    • Anahtar Kelime: Büyük Dil Modeli, Dil Modelini İnsan Niyetiyle Hizala
    • Dataset: TruthfulQA RealToxicityPrompts
  • Trafo Takviyeli Öğrenme (TRL)
    • Leandro von Werra, Younes Belkada, Lewis Tunstall, et al.
    • Anahtar Kelime: LLM'yi RL, PPO, Transformer ile eğitin
    • Task: IMDB sentiment
  • Distributed training
    • Jonathan Tow, Leandro von Werra, et al.
    • Anahtar Kelime: Dağıtılmış eğitim çerçevesi, T5 tabanlı dil modelleri, LLM'yi RL, PPO, ILQL ile Tren
    • Görev: Sağlanan ödül işlevini veya ödül etiketli veri setini kullanarak LLM ile LLM'de ince ayar yapın
  • RL4LM'ler (Dil modellerinde insan tercihlerine göre ince ayar yapmak için modüler bir RL kitaplığı)
  • HH-RLHF
    • Ben Mann, Deep Ganguli
  • Anahtar Kelime: İnsan tercihi veri seti, Red takım oluşturma verileri, makine yazımı
    • Görev: Yararlılık ve zararsızlık hakkında insan tercihi verileri için açık kaynaklı veri kümesi
  • LaMDA-rlhf-pytorch
    • Phil Wang
    • Anahtar Kelime: LaMDA, Dikkat Mekanizması
    • Görev: Google'ın PyTorch'taki LaMDA araştırma makalesinin açık kaynaklı eğitim öncesi uygulamas
  • TextRL
    • Eric Lam
    • Anahtar kelime: huggingface'in trafosu
    • Görev: Metin oluşturma
    • Env: PFRL, gym
  • minRLHF
    • Thomfoster
    • Anahtar kelime: PPO, Minimal kitaplık
    • Görev: eğitim amaçlı
  • Stanford Human Preferences Dataset(SHP)
    • Ethayarajh, Kawin and Zhang, Heidi and Wang, Yizhong and Jurafsky, Dan
    • Anahtar Kelime: Doğal olarak oluşan ve insan tarafından yazılan veri seti, 18 farklı konu alanı
    • Görev: RLHF ödül modellerini eğitmek için kullanılması amaçlanmıştır
  • PromptSource
    • Stephen H. Bach, Victor Sanh, Zheng-Xin Yong et al.
    • Anahtar Kelime: İstemli İngilizce veri kümeleri, Bir veri örneğini doğal dile eşleme
    • Görev: Doğal dil istemleri oluşturmak, paylaşmak ve kullanmak için araç seti
  • Structured Knowledge Grounding(SKG) Resources Collections
    • Tianbao Xie, Chen Henry Wu, Peng Shi et al.
    • Anahtar Kelime: Yapılandırılmış Bilgi Temellendirmesi
    • Görev: Veri kümelerinin toplanması, yapılandırılmış bilgi temeli ile ilgilidir
  • The Flan koleksiyon
    • Longpre Shayne, Hou Le, Vu Tu et al.
    • Görev: Koleksiyon, Flan 2021, P3, Super-Natural Instructions'tan veri kümelerini derler

Blogs

Katkı

Amacımız bu depoyu daha da iyi hale getirmek. Katkıda bulunmakla ilgileniyorsanız, katkıyla ilgili talimatlar için lütfen BURAYA bakın.

Lisans

Müthiş RLHF, Apache 2.0 lisansı altında yayınlandı. 01Kevin01