本文介绍如何使用PAI提供的LLM大语言模型数据处理组件、训练组件和推理组件,端到端完成大模型的开发和使用。
前提条件
数据集
输入的训练数据需遵循问答对格式,包含以下两个字段:
instruction:问题字段。
output:答案字段。
如果您的数据字段名不符合要求,可以提前通过自定义SQL脚本等方式进行预处理。如果您的数据直接来自互联网,可能存在数据冗余或脏数据,可以利用LLM数据预处理组件进行初步清洗和整理。具体操作,请参见LLM大语言模型数据处理 - github code。
使用流程
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
构建工作流。
在Designer页面,单击预置模板页签。
在LLM大语言模型页签的LLM大语言模型端到端链路:数据处理+模型训练+模型推理区域中,单击创建。
在新建工作流对话框中,配置参数(可以全部使用默认参数),然后单击确定。
其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。
在工作流列表中,双击目标工作流,进入工作流。
系统根据预置的模板,自动构建工作流,如下图所示。
区域
描述
①
进行简单的数据预处理,仅供端到端链路演示使用。更详细的数据预处理流程,请参见LLM大语言模型数据处理 - github code。
②
进行模型训练和离线推理。其中:
LLM模型训练组件
该组件封装了快速开始(QuickStart)提供的LLM模型,底层计算基于DLC容器任务。单击该组件,在右侧的字段设置页签可以选择模型名称。该组件支持多种主流的LLM模型,在本工作流程中,选择使用qwen-7b-chat模型进行示例训练。
LLM模型离线推理组件
使用该组件进行离线推理。在本工作流程中,选择使用qwen-7b-chat模型进行离线批量推理。
单击画布上方的运行按钮,运行工作流。
工作流成功运行后,右键单击LLM模型离线推理-1组件,在快捷菜单中选择
,查看推理结果。
后续步骤
您还可以使用经过相同预处理的数据,同时针对多个模型进行训练和推理。例如,构建如下工作流来并行地对qwen-7b-chat和llama2-7b-chat两个模型进行微调,然后使用同一批测试数据来比较它们推理后生成的结果。