使用trl庫做微調時, 對數據集的要求是:
如果是多輪對話場景:
jsonl 文件,且需符合以下要求:
1.每行是一個獨立的 JSON 對象;
2 每個對象須包含一個鍵名為 messages 的數組,數組不能為空;
3.messages 中每個元素必須包含 role 和 content 兩個字段:
4.role 只能是 system,user 或 assisiant;
5.如果有 system 角色消息, 需在數組首位;
6.第一條非 system 消息必須是 user 角色;
7.user 和 assisiant 角色的消息應當交替、成對出現,不少于1對;
如果是指令微調場景:
jsonl 文件,且需符合以下要求:
1.每行是一個獨立的 JSON 對象;
2 每個對象須包含且只能包含一個鍵名為 text 的鍵值對,值不能為空;
大模型開發出來后, 一般要經過以下幾個階段的訓練:
預訓練(Pre-Trained)
單純提供文本: {"text":"..."}
訓練模型由第一個文字開始, 預測后面的文字, 直到結束.
這種模型只會做完成文本的任務
監督微調(Supervised Fine Turning)
為了使模型能完成根據指令完成回答, 而不是隨機生成回答
提供的文本: {"instruction":"...", "output":"..."}
高效參數微調(Parameter Efficient Fine Turning)
只調整部分參數, 具體實現方法有LoRA
參考:
大模型微調后的評估指標是衡量模型性能的關鍵,通常根據任務類型和具體需求選擇不同的評估指標。以下是一些常見的評估指標及其適用場景:
1. 分類任務
- 準確率(Accuracy):預測正確的樣本占總樣本的比例。
- 精確率(Precision):預測為正類的樣本中,實際為正類的比例。
- 適用場景:關注減少假陽性(False Positive)的任務。
- 召回率(Recall):實際為正類的樣本中,預測為正類的比例。
- 適用場景:關注減少假陰性(False Negative)的任務。
- F1分數(F1 Score):精確率和召回率的調和平均值。
- 適用場景:類別不平衡或需要平衡精確率和召回率的任務。
- ROC-AUC:ROC曲線下的面積,衡量模型區分正負類的能力。
2. 回歸任務
- 均方誤差(MSE, Mean Squared Error):預測值與真實值之差的平方的平均值。
- 均方根誤差(RMSE, Root Mean Squared Error):MSE的平方根。
- 平均絕對誤差(MAE, Mean Absolute Error):預測值與真實值之差的絕對值的平均值。
- R²(決定系數):模型解釋目標變量方差的比例。
3. 生成任務
- BLEU(Bilingual Evaluation Understudy):衡量生成文本與參考文本的n-gram重疊程度。
- ROUGE(Recall-Oriented Understudy for Gisting Evaluation):衡量生成文本與參考文本的重疊程度,側重于召回率。
- METEOR:綜合考慮精確率、召回率和詞序的評估指標。
- Perplexity(困惑度):衡量模型預測概率分布的不確定性。
4. 多標簽任務
- Hamming Loss:預測錯誤的標簽比例。
- Jaccard Similarity:預測標簽與真實標簽的交集與并集之比。
5. 排序任務
- NDCG(Normalized Discounted Cumulative Gain):衡量排序結果的相關性。
- MAP(Mean Average Precision):平均精確率的均值。
6. 其他指標
- 訓練時間:模型微調所需的時間。
- 推理速度:模型生成結果的速度。
- 資源消耗:模型運行所需的計算資源(如GPU內存、CPU使用率)。
- 魯棒性:模型對噪聲、異常值或對抗樣本的抵抗能力。
7. 領域特定指標
- 醫學領域:敏感性(Sensitivity)、特異性(Specificity)、AUC-ROC。
- 金融領域:收益曲線、夏普比率(Sharpe Ratio)。
- 計算機視覺:mAP(mean Average Precision)、IoU(Intersection over Union)。
8. 人類評估
- 人工評分:通過人工評估生成結果的質量(如流暢性、相關性、準確性)。
- 用戶滿意度:通過用戶反饋評估模型的實際效果。
9. 模型對比
- 基線對比:與未微調的模型或基線模型進行性能對比。
- 消融實驗:評估微調過程中不同組件(如數據、超參數)對性能的影響。
10. 綜合評估
- 多指標綜合:根據任務需求,結合多個指標進行綜合評估。
- 任務特定指標:針對特定任務設計自定義指標。
在實際應用中,選擇合適的評估指標需要結合任務目標、數據特點和業務需求,同時注意避免單一指標的局限性。
@import url(http://www.tkk7.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);
@import url(http://www.tkk7.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);
如果要從結構化的數據中提取信息,用sql即可, 即要提取的信息在select 的字段中.
如果要從非結構化的數據中, 如純文本, 則要靠nlp, 要對文本理解后, 才能提取相應的信息.
文本結構化 with SpaCy 攻略
使用openspg自動構建醫療知識圖譜
@import url(http://www.tkk7.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);
從實踐案例介紹大模型應用經驗和思考
LLaMA Factory:微調DeepSeek-R1-Distill-Qwen-7B模型實現新聞標題分類器
deepseek r1微調模型應用落地案例(醫療法律,PatientSeek)
文本轉語音的模型ChatTTS體驗極佳,真人般絲滑和流暢,自定義也比較靈活
醫療NLP領域 評測/比賽,數據集,論文和預訓練模型資源匯總。