LLM大语言模型端到端链路 - 人工智能平台 PAI

LLM数据处理算法提供了对数据样本进行编辑和转换、过滤低质量样本、识别和删除重复样本等功能。您可以根据实际需求组合不同的算法，从而过滤出合适的数据并生成符合要求的文本，方便为后续的LLM训练提供优质的数据。本文通过LLM大语言模型端到端链路模板，为您介绍数据处理、模型训练和模型推理的全流程。

数据集说明

本文Designer中“LLM大语言模型端到端链路-DLC组件：数据处理+模型训练+模型推理”预置模板用的数据集需遵循问答对格式，即包含问题字段instruction和答案字段output。

进入Designer页面。
1. 登录PAI控制台。
2. 在顶部左上角根据实际情况选择地域。
3. 在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间。
4. 在左侧导航栏选择模型开发与训练 > 可视化建模（Designer），进入Designer页面。
创建工作流。
1. 在预置模板页签下，选择业务领域 > LLM 大语言模型，单击LLM大语言模型端到端链路-DLC组件：数据处理+模型训练+模型推理模板卡片上的创建。
2. 配置工作流参数（或保持默认），单击确定。
3. 在工作流列表，选择已创建的工作流，单击进入工作流。

工作流说明：

工作流中关键算法组件说明：

LLM-文本标准化（DLC）-1/LLM-文本标准化（DLC）-2
分别将“instruction”和“output”字段中的文本进行Unicode标准化处理，同时将繁体转简体。
LLM-敏感信息打码（DLC）-1/LLM-敏感信息打码（DLC）-2
分别将“instruction”和“output”字段中的敏感信息打码。例如：
- 将邮箱地址字符替换成[EMAIL]。
- 将手机电话号码替换成[TELEPHONE]或[MOBILEPHONE]。
- 将身份证号码替换成IDNUM。
LLM模型训练
根据选择的模型及对应训练方式进行模型训练。模型来源于PAI-QuickStart中，底层计算基于DLC容器任务。训练方式需和模型对应，各模型支持的训练方式如下：
- qwen-7b：支持QLoRA、全参微调。
- qwen-7b-chat：支持QLoRA、全参微调。
- qwen-1_8b-chat：支持QLoRA。
- llama-2-7b：支持QLoRA、全参微调。
- llama-2-7b-chat：支持QLoRA、全参微调。
- baichuan2-7b-base：支持QLoRA、LoRA、全参微调。
- baichuan2-7b-chat：支持QLoRA、LoRA、全参微调。
- chatglm3-6b：支持QLoRA、LoRA。
LLM模型离线推理
根据选择的模型进行离线推理。