LLM数据处理算法提供了对数据样本进行编辑和转换、过滤低质量样本、识别和删除重复样本等功能。您可以根据实际需求组合不同的算法,从而过滤出合适的数据并生成符合要求的文本,方便为后续的LLM训练提供优质的数据。本文通过LLM大语言模型端到端链路模板,为您介绍数据处理、模型训练和模型推理的全流程。
数据集说明
本文Designer中“LLM大语言模型端到端链路-DLC组件:数据处理+模型训练+模型推理”预置模板用的数据集需遵循问答对格式,即包含问题字段instruction
和答案字段output
。
创建并运行工作流
进入Designer页面。
登录PAI控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。
创建工作流。
在预置模板页签下,选择业务领域 > LLM 大语言模型,单击LLM大语言模型端到端链路-DLC组件:数据处理+模型训练+模型推理模板卡片上的创建。
配置工作流参数(或保持默认),单击确定。
在工作流列表,选择已创建的工作流,单击进入工作流。
工作流说明:
工作流中关键算法组件说明:
LLM-文本标准化(DLC)-1/LLM-文本标准化(DLC)-2
分别将“instruction”和“output”字段中的文本进行Unicode标准化处理,同时将繁体转简体。
LLM-敏感信息打码(DLC)-1/LLM-敏感信息打码(DLC)-2
分别将“instruction”和“output”字段中的敏感信息打码。例如:
将邮箱地址字符替换成
[EMAIL]
。将手机电话号码替换成
[TELEPHONE]
或[MOBILEPHONE]
。将身份证号码替换成
IDNUM
。
LLM模型训练
根据选择的模型及对应训练方式进行模型训练。模型来源于PAI-QuickStart中,底层计算基于DLC容器任务。训练方式需和模型对应,各模型支持的训练方式如下:
qwen-7b:支持QLoRA、全参微调。
qwen-7b-chat:支持QLoRA、全参微调。
qwen-1_8b-chat:支持QLoRA。
llama-2-7b:支持QLoRA、全参微调。
llama-2-7b-chat:支持QLoRA、全参微调。
baichuan2-7b-base:支持QLoRA、LoRA、全参微调。
baichuan2-7b-chat:支持QLoRA、LoRA、全参微调。
chatglm3-6b:支持QLoRA、LoRA。
LLM模型离线推理
根据选择的模型进行离线推理。
运行工作流。
运行结束后,右键单击LLM模型离线推理组件,选择查看数据 > 推理结果保存目录(OSS),查看推理结果。
更多应用
您也可以使用经过相同预处理的数据,同时针对多个模型进行训练和推理。例如,构建如下工作流并行地对qwen-7b-chat和llama2-7b-chat两个模型进行微调,然后使用同一批测试数据来比较它们推理后生成的结果。
相关参考
LLM算法组件详细说明,请参见LLM数据处理(DLC)。
LLM模型训练与推理组件详细说明,请参见大模型训练和推理。