LLM大語言模型端到端鏈路 - Platform For AI

LLM資料處理演算法提供了對資料樣本進行編輯和轉換、過濾低品質樣本、識別和重複資料刪除樣本等功能。您可以根據實際需求組合不同的演算法，從而過濾出合適的資料並產生符合要求的文本，方便為後續的LLM訓練提供優質的資料。本文通過LLM大語言模型端到端鏈路模板，為您介紹資料處理、模型訓練和模型推理的全流程。

資料集說明

本文Designer中“LLM大語言模型端到端鏈路-DLC組件：資料處理+模型訓練+模型推理”預置模板用的資料集需遵循問答對格式，即包含問題欄位instruction和答案欄位output。

建立並運行工作流程

進入Designer頁面。
1. 登入PAI控制台。
2. 在頂部左上方根據實際情況選擇地區。
3. 在左側導覽列選擇工作空間列表，單擊指定工作空間名稱，進入對應工作空間。
4. 在左側導覽列選擇模型開發與訓練 > 可視化建模（Designer），進入Designer頁面。
建立工作流程。
1. 在預置模板頁簽下，選擇業務領域 > LLM 大語言模型，單擊LLM大語言模型端到端鏈路-DLC組件：資料處理+模型訓練+模型推理模板卡片上的建立。
2. 配置工作流程參數（或保持預設），單擊確定。
3. 在工作流程列表，選擇已建立的工作流程，單擊進入工作流程。

工作流程說明：

工作流程中關鍵演算法組件說明：

LLM-文本標準化（DLC）-1/LLM-文本標準化（DLC）-2
分別將“instruction”和“output”欄位中的文本進行Unicode標準化處理，同時將繁體轉簡體。
LLM-敏感資訊打碼（DLC）-1/LLM-敏感資訊打碼（DLC）-2
分別將“instruction”和“output”欄位中的敏感資訊打碼。例如：
- 將郵箱地址字元替換成[EMAIL]。
- 將手機電話號碼替換成[TELEPHONE]或[MOBILEPHONE]。
- 將社會安全號碼碼替換成IDNUM。
LLM模型訓練
根據選擇的模型及對應訓練方式進行模型訓練。模型來源於PAI-QuickStart中，底層計算基於DLC容器任務。訓練方式需和模型對應，各模型支援的訓練方式如下：
- qwen-7b：支援QLoRA、全參微調。
- qwen-7b-chat：支援QLoRA、全參微調。
- qwen-1_8b-chat：支援QLoRA。
- llama-2-7b：支援QLoRA、全參微調。
- llama-2-7b-chat：支援QLoRA、全參微調。
- baichuan2-7b-base：支援QLoRA、LoRA、全參微調。
- baichuan2-7b-chat：支援QLoRA、LoRA、全參微調。
- chatglm3-6b：支援QLoRA、LoRA。
LLM模型離線推理
根據選擇的模型進行離線推理。

運行工作流程。
運行結束後，按右鍵LLM模型離線推理組件，選擇查看資料 > 推理結果儲存目錄（OSS），查看推理結果。

Platform For AI：LLM大語言模型端到端鏈路-DLC組件：資料處理+模型訓練+模型推理

資料集說明

建立並運行工作流程

更多應用

相關參考