LLM資料處理演算法提供了對資料樣本進行編輯和轉換、過濾低品質樣本、識別和重複資料刪除樣本等功能。您可以根據實際需求組合不同的演算法,從而過濾出合適的資料並產生符合要求的文本,方便為後續的LLM訓練提供優質的資料。本文通過LLM大語言模型端到端鏈路模板,為您介紹資料處理、模型訓練和模型推理的全流程。
資料集說明
本文Designer中“LLM大語言模型端到端鏈路-DLC組件:資料處理+模型訓練+模型推理”預置模板用的資料集需遵循問答對格式,即包含問題欄位instruction
和答案欄位output
。
建立並運行工作流程
進入Designer頁面。
登入PAI控制台。
在頂部左上方根據實際情況選擇地區。
在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間。
在左側導覽列選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。
建立工作流程。
在預置模板頁簽下,選擇業務領域 > LLM 大語言模型,單擊LLM大語言模型端到端鏈路-DLC組件:資料處理+模型訓練+模型推理模板卡片上的建立。
配置工作流程參數(或保持預設),單擊確定。
在工作流程列表,選擇已建立的工作流程,單擊進入工作流程。
工作流程說明:
工作流程中關鍵演算法組件說明:
LLM-文本標準化(DLC)-1/LLM-文本標準化(DLC)-2
分別將“instruction”和“output”欄位中的文本進行Unicode標準化處理,同時將繁體轉簡體。
LLM-敏感資訊打碼(DLC)-1/LLM-敏感資訊打碼(DLC)-2
分別將“instruction”和“output”欄位中的敏感資訊打碼。例如:
將郵箱地址字元替換成
[EMAIL]
。將手機電話號碼替換成
[TELEPHONE]
或[MOBILEPHONE]
。將社會安全號碼碼替換成
IDNUM
。
LLM模型訓練
根據選擇的模型及對應訓練方式進行模型訓練。模型來源於PAI-QuickStart中,底層計算基於DLC容器任務。訓練方式需和模型對應,各模型支援的訓練方式如下:
qwen-7b:支援QLoRA、全參微調。
qwen-7b-chat:支援QLoRA、全參微調。
qwen-1_8b-chat:支援QLoRA。
llama-2-7b:支援QLoRA、全參微調。
llama-2-7b-chat:支援QLoRA、全參微調。
baichuan2-7b-base:支援QLoRA、LoRA、全參微調。
baichuan2-7b-chat:支援QLoRA、LoRA、全參微調。
chatglm3-6b:支援QLoRA、LoRA。
LLM模型離線推理
根據選擇的模型進行離線推理。
運行工作流程。
運行結束後,按右鍵LLM模型離線推理組件,選擇查看資料 > 推理結果儲存目錄(OSS),查看推理結果。
更多應用
您也可以使用經過相同前置處理過的資料,同時針對多個模型進行訓練和推理。例如,構建如下工作流程並行地對qwen-7b-chat和llama2-7b-chat兩個模型進行微調,然後使用同一批測試資料來比較它們推理後產生的結果。
相關參考
LLM演算法組件詳細說明,請參見LLM資料處理(DLC)。
LLM模型訓練與推理組件詳細說明,請參見大模型訓練和推理。