线性回归是数理统计中的回归分析方法,可以确定两种或两种以上变量之间相互依赖的定量关系。Designer预置了线性回归算法模板,便于您通过农业贷款的历史发放情况,快速实现贷款发放预测。本文为您介绍Designer线性回归算法预置模板的具体使用方法。
背景信息
农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过历史贷款数据(包括贷款人的年收入、种植作物种类及历史借贷信息等)构建经验模型,并预测受贷人的还款能力。
本工作流数据为虚构,仅供学习。
前提条件
数据集
本工作流的数据集包括如下字段。
字段名 | 类型 | 描述 |
id | STRING | 数据唯一标识符。 |
name | STRING | 用户名。 |
region | STRING | 用户所属地区,从北到南排列。 |
farmsize | DOUBLE | 土地面积。 |
rainfall | DOUBLE | 降雨量。 |
landquality | DOUBLE | 土地质量,该参数取值越大越好。 |
farmincome | DOUBLE | 年收入。 |
maincrop | STRING | 种植作物的种类。 |
claimtype | STRING | 贷款类型。 |
claimvalue | DOUBLE | 贷款金额。 |
基于回归算法预测农业贷款发放
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
构建工作流。
在Designer页面,单击预置模板页签。
在工作流模板列表的农业贷款预测的回归算法实现区域,单击创建。
在新建工作流对话框,配置参数(可以全部使用默认参数)。
其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。
单击确定。
您需要等待大约十秒钟,工作流可以创建成功。
在工作流列表,选择农业贷款预测的回归算法实现工作流,单击进入工作流。
系统根据预置的模板,自动构建工作流,如下图所示。
区域
描述
①
读数据表读入的数据为工作流数据集,包括:
贷款训练集:共一百条历史贷款数据,包括farmsize及rainfall等特征,用于训练回归模型。其中claimvalue表示贷款收回的金额。
贷款预测集:共七十一人,指今年申请贷款者。其中claimvalue表示申请的贷款金额。
本工作流通过贷款训练集中的历史数据,预测为贷款预测集中的哪些申请人发放贷款。
②
根据含义将字符串类型的数据映射为数字。以region字段为例,先将其中的north、middle及south按照从北到南的顺序分别映射为0、1及2,再将其转换为DOUBLE类型。
③
首先使用线性回归组件对历史数据进行训练并生成回归模型。然后在预测组件中利用回归模型对预测数据集进行贷款发放预测。最后通过合并列组件将用户ID、预测值及申请的贷款值合并,结果如下图所示。其中prediction_score表示用户的还贷能力(预期可以归还的金额)。
④
使用回归模型评估组件进行模型评估,评估指标详情请参见评估指标。
⑤
通过过滤与映射组件筛选可以获得贷款的用户。对于每个申请贷款人,如果预测获得该贷款人的还款能力大于其申请的贷款金额,则发放贷款。
表 1. 评估指标
字段名称
描述
MAE
平均绝对误差
MAPE
平均绝对百分误差
MSE
均方误差
R
多重相关系数
R2
判定系数
RMSE
均方根误差
SAE
绝对误差和
SSE
误差平方和
SSR
回归平方和
SST
总平方和
count
行数
predictionMean
预测结果的均值
yMean
原始因变量的均值
运行工作流并查看输出结果。
单击画布上方的运行按钮,运行工作流。
工作流运行结束后,右键单击画布中的过滤与映射,在快捷菜单,单击 ,即可查看可以为其发放贷款的用户。
相关文档
关于算法组件更详细的内容介绍,请参见: