对实时性要求不高的业务场景,通常会使用模型对数据集进行周期性的批量离线预测。在Designer中提供了支持离线预测的完整功能。本文为您介绍如何在Designer平台进行离线批量预测。
在开发环境进行批量预测
Designer中提供了多种预测组件,分别对应不同的算法和场景,在画布中可直接使用。
对于在左侧组件树中成对出现的训练和预测组件,训练完成后直接使用对应的预测组件进行数据的批量预测。
对于没有独立预测组件的算法,训练完成后可以使用通用的预测组件进行数据的批量预测。
重要通用的预测组件可接收的模型格式是OfflineModel,而不是PMML。
在已有模型的情况下,也可以使用组件导入模型和预测数据,并在组件下游连接预测组件进行预测和部署。
离线预测工作流部署周期性调度
离线预测工作流测试通过后,您可以将预测工作流提交到DataWorks进行周期性调度,详情请参见使用DataWorks离线调度Designer工作流。
对于工作空间是DataWorks标准模式的用户来说,开发环境和生产环境的MaxCompute数据是相互隔离的。因此,在将预测工作流配置周期性调度任务之前,还需要将离线训练得到的模型同步至生产环境。有以下两种实现方式:
使用复制MaxCompute离线模型组件和读MaxCompute离线模型组件
使用复制MaxCompute离线模型组件将训练得到的OfflineModel格式模型直接复制到生产环境,然后在周期性运行的预测工作流中,使用读MaxCompute离线模型组件来读取生产环境的模型。
这个复制操作需要写入生产环境的MaxCompute存储,因此只有工作空间管理员或生产账号才能执行。详情请参见权限说明。
使用通用模型导出组件和导入MaxCompute离线模型组件(推荐)
使用通用模型导出组件将训练得到的OfflineModel格式模型导出至OSS中,然后在周期性运行的预测工作流中,在实际执行时使用导入MaxCompute离线模型组件从OSS中导入所需模型。
相关文档
当离线预测结果符合预期时,您可以将模型部署为EAS在线服务。详情请参见单模型部署在线服务。
Designer支持将离线数据处理pipeline打包成一个Pipeline模型,并一键部署为EAS在线服务。详情请参见Pipeline部署在线服务。