LANGUAGE TURKISH Türkçe
Bu, İnsan Geri Bildirimiyle Güçlendirmeli Öğrenim (RLHF) için araştırma makalelerinin bir derlemesidir. Ve depo, RLHF sınırını izlemek için sürekli olarak güncellenecektir.
Takip etmeye ve yıldız vermeye hoş geldiniz!
- RLHF'ye Genel Bakış
- Kağıtlar
- [Kod tabanları](#kod tabanları)
- Bloglar
- [Katkıda Bulunan](#katkıda bulunan)
RLHF fikri, bir dil modelini insan geri bildirimiyle doğrudan optimize etmek için pekiştirmeli öğrenme yöntemlerini kullanmaktır. RLHF, dil modellerinin genel bir metin verileri külliyatı üzerinde eğitilmiş bir modeli karmaşık insan değerlerininkiyle hizalamaya başlamasını sağladı.
- Büyük Dil Modeli (LLM) için RLHF
- Video Oyunu için RLHF (ör. Atari)
(Aşağıdaki bölüm ChatGPT tarafından otomatik olarak oluşturulmuştur)
RLHF tipik olarak "İnsan Geri Bildirimiyle Güçlendirmeli Öğrenme" anlamına gelir. Takviyeli Öğrenim (RL), ortamından gelen geri bildirime dayalı kararlar vermesi için bir aracıyı eğitmeyi içeren bir makine öğrenimi türüdür. RLHF'de aracı ayrıca, daha hızlı ve doğru bir şekilde öğrenmesine yardımcı olabilecek eylemlerinin derecelendirmeleri veya değerlendirmeleri şeklinde insanlardan geri bildirim alır.
RLHF, robotik, oyun ve kişiselleştirilmiş öneri sistemleri gibi alanlardaki uygulamalarıyla yapay zeka alanında aktif bir araştırma alanıdır. Temsilcinin ortamdan gelen geri bildirimlere sınırlı erişiminin olduğu ve performansını iyileştirmek için insan girdisine ihtiyaç duyduğu senaryolarda RL'nin zorluklarını ele almaya çalışır.
İnsan Geri Bildirimiyle Takviyeli Öğrenme (RLHF), yapay zeka alanında hızla gelişen bir araştırma alanıdır ve RLHF sistemlerinin performansını iyileştirmek için geliştirilmiş birkaç gelişmiş teknik vardır. İşte bazı örnekler:
-
Ters Takviyeli Öğrenme (IRL)
: IRL, aracının, önceden tanımlanmış ödül fonksiyonlarına güvenmek yerine insan geribildiriminden bir ödül fonksiyonu öğrenmesini sağlayan bir tekniktir. Bu, aracının, istenen davranışın gösterilmesi gibi daha karmaşık geri bildirim sinyallerinden öğrenmesini mümkün kılar. -
"Çıraklık Eğitimi": Çıraklık öğrenimi, temsilcinin hem insan geri bildiriminden hem de uzman gösterilerinden öğrenmesini sağlamak için IRL'yi denetimli öğrenmeyle birleştiren bir tekniktir. Bu, temsilcinin hem olumlu hem de olumsuz geri bildirimlerden öğrenebildiği için daha hızlı ve etkili bir şekilde öğrenmesine yardımcı olabilir.
-
Etkileşimli Makine Öğrenimi (IML)
: IML, aracı ile insan uzman arasındaki aktif etkileşimi içeren ve uzmanın aracının eylemleri hakkında gerçek zamanlı olarak geri bildirim sağlamasına olanak tanıyan bir tekniktir. Bu, aracının öğrenme sürecinin her adımında eylemleri hakkında geri bildirim alabildiği için daha hızlı ve verimli bir şekilde öğrenmesine yardımcı olabilir. -
İnsan-in-the-Loop Takviyeli Öğrenim (HITLRL)
: HITLRL, ödül şekillendirme, eylem seçimi ve politika optimizasyonu gibi insan geri bildirimini RL sürecine birden çok düzeyde entegre etmeyi içeren bir tekniktir. Bu, hem insanların hem de makinelerin güçlü yönlerinden yararlanarak RLHF sisteminin verimliliğini ve etkililiğini artırmaya yardımcı olabilir.
İşte İnsan Geri Bildirimi (RLHF) ile Güçlendirmeli Öğrenimden bazı örnekler:
-
Oyun Oynama
: Oyun oynarken, insan geri bildirimi, temsilcinin farklı oyun senaryolarında etkili olan stratejileri ve taktikleri öğrenmesine yardımcı olabilir. Örneğin, popüler Go oyununda insan uzmanlar, temsilciye hareketleriyle ilgili geri bildirimde bulunarak, temsilcinin oynanışını ve karar verme sürecini iyileştirmesine yardımcı olabilir. -
"Kişiselleştirilmiş Öneri Sistemleri": Öneri sistemlerinde, insan geri bildirimi, temsilcinin bireysel kullanıcıların tercihlerini öğrenmesine yardımcı olarak kişiselleştirilmiş öneriler sunmayı mümkün kılar. Örneğin temsilci, hangi özelliklerin onlar için en önemli olduğunu öğrenmek için önerilen ürünlerle ilgili kullanıcılardan gelen geri bildirimleri kullanabilir.
-
"Robotik": Robotikte insan geri bildirimi, aracının fiziksel çevreyle güvenli ve verimli bir şekilde nasıl etkileşim kuracağını öğrenmesine yardımcı olabilir. Örneğin, bir robot, bir insan operatörden alınacak en iyi yol veya hangi nesnelerden kaçınılması gerektiği konusunda geri bildirim alarak yeni bir ortamda daha hızlı gezinmeyi öğrenebilir.
-
"Eğitim": Eğitimde, insan geri bildirimi aracının öğrencilere nasıl daha etkili bir şekilde öğreteceğini öğrenmesine yardımcı olabilir. Örneğin, yapay zeka tabanlı bir öğretmen, hangi öğretim stratejilerinin farklı öğrencilerle en iyi şekilde çalıştığı konusunda öğretmenlerden gelen geri bildirimleri kullanarak öğrenme deneyimini kişiselleştirmeye yardımcı olabilir.
biçim:
- [başlık](kağıt bağlantı) [bağlantılar]
- yazar1, yazar2 ve yazar3...
- Yayımcı
- anahtar kelime
- kod
- deney ortamları ve veri kümeleri
-
- OpenAI
- Anahtar Kelime: Büyük ölçekli, çok modlu bir model, Trafo tabanlı model, İnce ayarlı kullanılmış RLHF
- Kod:official
- Dataset: DROP, WinoGrande, HellaSwag, ARC, HumanEval, GSM8K, MMLU, TruthfulQA
-
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
- Hanze Dong, Wei Xiong, Deepanshu Goyal, Rui Pan, Shizhe Diao, Jipeng Zhang, Kashun Shum, Tong Zhang
- Keyword: Alternative to PPO, ChatGPT, Diffusion Model
- Code: official
-
RRHF: Rank Responses to Align Language Models with Human Feedback without tears
- Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang
- Keyword: New paradigm for RLHF
- Code: official
-
İnsan-in-the-Loop RL için Birkaç Adımlık Tercihli Öğrenme
- Joey Hejna, Dorsa Sadigh
- Anahtar Kelime: Tercihli Öğrenme, Etkileşimli Öğrenme, Çok Görevli Öğrenme, Döngüdeki insan RL'yi görüntüleyerek mevcut veri havuzunu genişletme
- Code: official
-
Metinden Görüntüye Modelleri İnsan Tercihiyle Daha İyi Hizalama
- Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li
- Anahtar Kelime: Difüzyon Modeli, Metinden Görüntüye, Estetik
- Code: official
-
ImageReward: Metinden Görüntüye Üretim için İnsan Tercihlerini Öğrenmek ve Değerlendirmek
- Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong
- Anahtar Kelime: Genel amaçlı metinden resme insan tercihi RM, Metinden resme Üretken Modellerin Değerlendirilmesi
- Code: official
- Dataset: COCO, DiffusionDB
-
Aligning İnsan Geri Bildirimini Kullanan Metinden Görüntüye Modeller
- Kimin Lee, Hao liu, MoonKyung Ryu, Olivia Watkins, Yuqing Du, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Shixiang Shane Gu
- Anahtar Kelime: Metinden Görüntüye, Kararlı yayılma modeli, İnsan geri bildirimini tahmin eden Ödül işlevi
-
Visual ChatGPT: Visual Foundation Modelleri ile Konuşma, Çizim ve Düzenleme
- Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan
- Anahtar Kelime: Visual Foundation Modelleri, Visual ChatGPT
- Code: official
-
İnsan Tercihleriyle Ön Eğitim Dil Modelleri (PHF)
- Tomasz Korbak, Kejian Shi, Angelica Chen, Rasika Bhalerao, Christopher L. Buckley, Jason Phang, Samuel R. Bowman, Ethan Perez
- Anahtar Kelime: Ön eğitim, çevrimdışı RL, Karar dönüştürücü
- Code: official
-
f-diverjans Minimizasyonu yoluyla Dil Modellerini Tercihlerle Hizalama (f-DPG)
- Dongyoung Go, Tomasz Korbak, Germán Kruszewski, Jos Rozen, Nahyeon Ryu, Marc Dymetman
- Anahtar kelime: f-diverjans, KL cezalı RL
-
Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons
- Banghua Zhu, Jiantao Jiao, Michael I. Jordan
- Anahtar Kelime: Kötümser MLE, Maks-entropi IRL
-
Büyük Dil Modellerinde Ahlaki Kendini Düzeltme Kapasitesi
- Anthropic
- Anahtar Kelime: RLHF eğitimini artırarak ahlaki kendi kendini düzeltme yeteneğini geliştirin
- Dataset; BBQ
- Takviyeli Öğrenim Doğal Dil İşleme İçin mi (Değil) mi?: Doğal Dil Politikası Optimizasyonu için Karşılaştırmalar, Temel Çizgiler ve Yapı Taşları (NLPO)
- Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté,Brantley, Jack Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, Yejin Choi
- Anahtar Kelime: RL, Benchmark, Performant RL algoritması ile dil oluşturucuları optimize etme
- Code: official
- Dataset: IMDB, CommonGen, CNN Daily Mail, ToTTo, WMT-16 (en-de),NarrativeQA, DailyDialog
- Scaling Laws for Reward Model Overoptimization
- Leo Gao, John Schulman, Jacob Hilton
- Anahtar Kelime: Altın ödül modeli tren proxy ödül modeli, Veri kümesi boyutu, Politika parametre boyutu, BoN, PPO
- Hedeflenen insan yargıları yoluyla diyalog aracılarının uyumunun iyileştirilmesi (Sparrow)
- Amelia Glaese, Nat McAleese, Maja Trębacz, et al.
- Anahtar Sözcük: Bilgi arayan diyalog aracısı, İyi diyaloğu doğal dil kurallarına bölün, DPC, Belirli bir kuralın ihlalini ortaya çıkarmak için modelle etkileşim kurun (Düşmanlı Araştırma)
- Dataset: Doğal Sorular, ELI5, QuALITY, TriviaQA, WinoBias, BBQ
- Zararları Azaltmak için Red Teaming Dil Modelleri: Yöntemler, Davranışları Ölçeklendirme ve Alınan Dersler
- Deep Ganguli, Liane Lovitt, Jackson Kernion, et al.
- Anahtar Kelime: Red team dil modeli, Ölçekleme davranışlarını araştırma, Teaming Dataset'i okuma
- Code: official
- Takviyeli Öğrenimi Kullanarak Açık Uçlu Diyalogda Dinamik Planlama
- Deborah Cohen, Moonkyung Ryu, Yinlam Chow, Orgad Keller, Ido Greenberg, Avinatan Hassidim, Michael Fink, Yossi Matias, Idan Szpektor, Craig Boutilier, Gal Elidan
- Anahtar Kelime: Gerçek zamanlı, Açık uçlu diyalog sistemi, Konuşma durumunun özlü yerleşimini dil modellerine göre eşleştirir, CAQL, CQL, [BERT]
- (https://github.com/google-research/bert)
- Quark: Güçlendirilmiş Unlearning ile Kontrol Edilebilir Metin Oluşturma
- Ximing Lu, Sean Welleck, Jack Hessel, Liwei Jiang, Lianhui Qin, Peter West, Prithviraj Ammanabrolu, Yejin Choi
- Anahtar Kelime: Ne yapılmaması gerektiğine dair sinyaller üzerinde dil modelinin ince ayarı, Decision Transformer, PPO ile LLM ayarı
- Code: official
- Dataset: WRITINGPROMPTS, SST-2, WIKITEXT-103
- İnsan Geribildiriminden Güçlendirilmiş Öğrenim ile Yararlı ve Zararsız Bir Asistan Yetiştirmek
- Yuntao Bai, Andy Jones, Kamal Ndousse, et al.
- Anahtar Kelime: Zararsız asistanlar, Çevrimiçi mod, RLHF eğitiminin sağlamlığı, OOD tespiti.
- Code: official
- Dataset: TriviaQA, HellaSwag, ARC, OpenBookQA, LAMBADA, HumanEval, MMLU, TruthfulQA
- Doğrulanmış alıntılarla yanıtları desteklemek için dil modellerini öğretmek (GopherCite)
- Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, Nat McAleese
- Keyword: Generate answers which citing specific evidence, Abstain from answering when unsure
- Dataset: Natural Questions, ELI5, QuALITY, TruthfulQA
- İnsan geri bildirimi ile talimatları takip etmek için eğitim dil modelleri (InstructGPT)
- Long Ouyang, Jeff Wu, Xu Jiang, et al.
- Anahtar Kelime: Büyük Dil Modeli, Dil Modelini İnsan Niyetiyle Hizala
- Code: official
- Dataset: TruthfulQA, RealToxicityPrompts
- Yapısal Yapay Zeka: Yapay Zeka Geri Bildiriminden Zararsızlık
- Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, et al.
- Keyword: RL from AI feedback(RLAIF), Training a harmless AI assistant through selfimprovement, Chain-of-thought style, Control AI behavior more precisely
- Code: official -
- Ethan Perez, Sam Ringer, Kamilė Lukošiūtė, Karina Nguyen, Edwin Chen, et al.
- Anahtar Kelime: LM'lerle otomatik olarak değerlendirmeler oluşturun, Daha Fazla RLHF, LM'leri daha kötü hale getirir, LM'de yazılan değerlendirmeler yüksek kalitededir
- Code: official
- Dataset: BBQ, Winogender Schemas
- Yorumlanabilir Çoklu Örnek Öğrenme Yoluyla Yörünge Etiketlerinden Markoviyen Olmayan Ödül Modellemesi
- Joseph Early, Tom Bewley, Christine Evers, Sarvapali Ramchurn
- Anahtar Kelime: Ödül Modelleme (RLHF), Non-Markovian, Çoklu Örnek Öğrenme, Yorumlanabilirlik
- Code: official
- WebGPT: İnsan geri bildirimiyle tarayıcı destekli soru yanıtlama (WebGPT)
- Reiichiro Nakano, Jacob Hilton, Suchir Balaji, et al.
- Anahtar Kelime: Web'de model araması yapın ve referans sağlayın, Taklit öğrenme, BC, uzun biçimli soru
- Dataset: ELI5, TriviaQA, TruthfulQA
- İnsan Geri Bildirimiyle Kitapları Yinelemeli Olarak Özetleme
- Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano
- Anahtar Kelime: İnsanların daha geniş görevleri değerlendirmesine yardımcı olmak için küçük görevlerde eğitilmiş model, BC
- Dataset: Booksum, NarrativeQA
- Nöral Makine Çevirisi için Takviyeli Öğrenmenin Zayıf Yönlerini Yeniden İncelemek
- İnsan geri bildirimlerinden özetlemeyi öğrenmek
- İnsan Tercihlerinden Dil Modellerine İnce Ayar
- Ödül modelleme yoluyla ölçeklenebilir temsilci hizalaması: bir araştırma yönü
- Jan Leike, David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg
- Anahtar Kelime: Temsilci hizalama sorunu, Etkileşimden ödül öğrenme, RL ile ödülü optimize etme, Yinelemeli ödül modelleme
- Code: official
- Env: Atari
- Atari'de insan tercihlerinden ve gösterilerden öğrenmeyi ödüllendirin
- Borja Ibarz, Jan Leike, Tobias Pohlen, Geoffrey Irving, Shane Legg, Dario Amodei
- Anahtar Kelime: Uzman demonstrasyon yörünge tercihleri, bilgisayar korsanlığı problemini ödüllendirir, insan etiketindeki gürültü
- Code: official
- Env: Atari
- Deep TAMER: Yüksek Boyutlu Durum Uzaylarında Etkileşimli Ajan Şekillendirme
- Garrett Warnell, Nicholas Waytowich, Vernon Lawhern, Peter Stone
- Anahtar Kelime: Yüksek boyut durumu, İnsan eğitmeninin girdilerinden yararlanın
- Code: third party
- Env: Atari
- İnsan tercihlerinden derinlemesine pekiştirmeli öğrenme
- Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei
- Anahtar Kelime: Yörünge çiftleri arasında insan tercihlerinde tanımlanan hedefi keşfedin, segmentasyon, İnsan geri bildiriminden daha karmaşık bir şey öğrenin
- Code: official
- Env: Atari, MuJoCo
- Politikaya Bağlı İnsan Geri Bildiriminden Etkileşimli Öğrenme
- James MacGlashan, Mark K Ho, Robert Loftin, Bei Peng, Guan Wang, David Roberts, Matthew E. Taylor, Michael L. Littman
- Anahtar Sözcük: Karar, insan geri bildiriminden çok mevcut politikadan etkilenir, Yerel bir optimuma yakınsayan politikaya bağlı geri bildirimden öğrenin
##Google Makale Türk -CHATGPT İLE ÜRETİLEN İÇERİKLERİN ESER NİTELİĞİNİN 5846 SAYILI FİKİR VE SANAT ESERLERİ KANUNU BAKIMINDAN DEĞERLENDİRİLMESİ
-JOURNAL OF TOURISM AND GASTRONOMY STUDIES
biçim:
- [başlık](kod tabanı bağlantısı) [bağlantılar]
- yazar1, yazar2 ve yazar3...
- anahtar kelime
- deney ortamları, veri kümeleri veya görevler
- PaLM + RLHF - Pytorch
- Phil Wang, Yachine Zahidi, Ikko Eltociear Ashimine, Eric Alcaide
- Anahtar Kelime: Transformatörler, PaLM mimarisi
- Dataset: enwik8
- lm-insan-tercihleri
- takip-talimatları-insan-geri bildirimi
- Long Ouyang, Jeff Wu, Xu Jiang, et al.
- Anahtar Kelime: Büyük Dil Modeli, Dil Modelini İnsan Niyetiyle Hizala
- Dataset: TruthfulQA RealToxicityPrompts
- Trafo Takviyeli Öğrenme (TRL)
- Leandro von Werra, Younes Belkada, Lewis Tunstall, et al.
- Anahtar Kelime: LLM'yi RL, PPO, Transformer ile eğitin
- Task: IMDB sentiment
- Distributed training
- Jonathan Tow, Leandro von Werra, et al.
- Anahtar Kelime: Dağıtılmış eğitim çerçevesi, T5 tabanlı dil modelleri, LLM'yi RL, PPO, ILQL ile Tren
- Görev: Sağlanan ödül işlevini veya ödül etiketli veri setini kullanarak LLM ile LLM'de ince ayar yapın
- RL4LM'ler (Dil modellerinde insan tercihlerine göre ince ayar yapmak için modüler bir RL kitaplığı)
- Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté,Brantley, Jack Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, Yejin Choi
- Anahtar Kelime: RL, Benchmark, Performant RL algoritması ile dil oluşturucuları optimize etme
- Dataset: IMDB, CommonGen, CNN Daily Mail, ToTTo, WMT-16 (en-de), NarrativeQA, DailyDialog
- HH-RLHF
- Ben Mann, Deep Ganguli
- Anahtar Kelime: İnsan tercihi veri seti, Red takım oluşturma verileri, makine yazımı
- Görev: Yararlılık ve zararsızlık hakkında insan tercihi verileri için açık kaynaklı veri kümesi
- LaMDA-rlhf-pytorch
- Phil Wang
- Anahtar Kelime: LaMDA, Dikkat Mekanizması
- Görev: Google'ın PyTorch'taki LaMDA araştırma makalesinin açık kaynaklı eğitim öncesi uygulamas
- TextRL
- Eric Lam
- Anahtar kelime: huggingface'in trafosu
- Görev: Metin oluşturma
- Env: PFRL, gym
- minRLHF
- Thomfoster
- Anahtar kelime: PPO, Minimal kitaplık
- Görev: eğitim amaçlı
- Stanford Human Preferences Dataset(SHP)
- Ethayarajh, Kawin and Zhang, Heidi and Wang, Yizhong and Jurafsky, Dan
- Anahtar Kelime: Doğal olarak oluşan ve insan tarafından yazılan veri seti, 18 farklı konu alanı
- Görev: RLHF ödül modellerini eğitmek için kullanılması amaçlanmıştır
- PromptSource
- Stephen H. Bach, Victor Sanh, Zheng-Xin Yong et al.
- Anahtar Kelime: İstemli İngilizce veri kümeleri, Bir veri örneğini doğal dile eşleme
- Görev: Doğal dil istemleri oluşturmak, paylaşmak ve kullanmak için araç seti
- Structured Knowledge Grounding(SKG) Resources Collections
- Tianbao Xie, Chen Henry Wu, Peng Shi et al.
- Anahtar Kelime: Yapılandırılmış Bilgi Temellendirmesi
- Görev: Veri kümelerinin toplanması, yapılandırılmış bilgi temeli ile ilgilidir
- The Flan koleksiyon
- Longpre Shayne, Hou Le, Vu Tu et al.
- Görev: Koleksiyon, Flan 2021, P3, Super-Natural Instructions'tan veri kümelerini derler
- [OpenAI] ChatGPT: Optimizing Language Models for Dialogue
- [Hugging Face] Illustrating Reinforcement Learning from Human Feedback (RLHF)
- [ZhiHu] 通向AGI之路:大型语言模型 (LLM) 技术精要
- [ZhiHu] 大语言模型的涌现能力:现象与解释
- [W&B Fully Connected] Understanding Reinforcement Learning from Human Feedback (RLHF)
- [Deepmind] Learning through human feedback
- [Notion] 深入理解语言模型的突现能力
- [Notion] 拆解追溯 GPT-3.5 各项能力的起源
Amacımız bu depoyu daha da iyi hale getirmek. Katkıda bulunmakla ilgileniyorsanız, katkıyla ilgili talimatlar için lütfen BURAYA bakın.
Müthiş RLHF, Apache 2.0 lisansı altında yayınlandı. 01Kevin01