蘑菇書(shū)EasyRL
李宏毅老師的《深度強(qiáng)化學(xué)習(xí)》是強(qiáng)化學(xué)習(xí)領(lǐng)域經(jīng)典的中文視頻之一。李老師幽默風(fēng)趣的上課風(fēng)格讓晦澀難懂的強(qiáng)化學(xué)習(xí)理論變得輕松易懂,他會(huì)通過(guò)很多有趣的例子來(lái)講解強(qiáng)化學(xué)習(xí)理論。比如老師經(jīng)常會(huì)用玩 Atari 游戲的例子來(lái)講解強(qiáng)化學(xué)習(xí)算法。此外,為了教程的完整性,我們整理了周博磊老師的《強(qiáng)化學(xué)習(xí)綱要》、李科澆老師的《世界冠軍帶你從零實(shí)踐強(qiáng)化學(xué)習(xí)》以及多個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典資料作為補(bǔ)充。對(duì)于想入門(mén)強(qiáng)化學(xué)習(xí)又想看中文講解的人來(lái)說(shuō)絕對(duì)是非常推薦的。
本教程也稱(chēng)為“蘑菇書(shū)”,寓意是希望此書(shū)能夠?yàn)樽x者注入活力,讓讀者“吃”下這本蘑菇之后,能夠饒有興致地探索強(qiáng)化學(xué)習(xí),像馬里奧那樣愈加強(qiáng)大,繼而在人工智能領(lǐng)域覓得意外的收獲。
基于機(jī)器學(xué)習(xí)的2022世界杯預(yù)測(cè)實(shí)戰(zhàn)
AI 競(jìng)彩賽事 預(yù)測(cè)工具
使用trl庫(kù)做微調(diào)時(shí), 對(duì)數(shù)據(jù)集的要求是:
如果是多輪對(duì)話(huà)場(chǎng)景:
jsonl 文件,且需符合以下要求:
1.每行是一個(gè)獨(dú)立的 JSON 對(duì)象;
2 每個(gè)對(duì)象須包含一個(gè)鍵名為 messages 的數(shù)組,數(shù)組不能為空;
3.messages 中每個(gè)元素必須包含 role 和 content 兩個(gè)字段:
4.role 只能是 system,user 或 assisiant;
5.如果有 system 角色消息, 需在數(shù)組首位;
6.第一條非 system 消息必須是 user 角色;
7.user 和 assisiant 角色的消息應(yīng)當(dāng)交替、成對(duì)出現(xiàn),不少于1對(duì);
如果是指令微調(diào)場(chǎng)景:
jsonl 文件,且需符合以下要求:
1.每行是一個(gè)獨(dú)立的 JSON 對(duì)象;
2 每個(gè)對(duì)象須包含且只能包含一個(gè)鍵名為 text 的鍵值對(duì),值不能為空;
大模型開(kāi)發(fā)出來(lái)后, 一般要經(jīng)過(guò)以下幾個(gè)階段的訓(xùn)練:
預(yù)訓(xùn)練(Pre-Trained)
單純提供文本: {"text":"..."}
訓(xùn)練模型由第一個(gè)文字開(kāi)始, 預(yù)測(cè)后面的文字, 直到結(jié)束.
這種模型只會(huì)做完成文本的任務(wù)
監(jiān)督微調(diào)(Supervised Fine Turning)
為了使模型能完成根據(jù)指令完成回答, 而不是隨機(jī)生成回答
提供的文本: {"instruction":"...", "output":"..."}
高效參數(shù)微調(diào)(Parameter Efficient Fine Turning)
只調(diào)整部分參數(shù), 具體實(shí)現(xiàn)方法有LoRA
參考: