本文为您介绍Designer提供的卡方拟合性检验。卡方拟合性检验适用于变量为类别型变量的场景,旨在检验单个多项分类型变量在各分类间的实际观测次数与理论次数是否一致,其零假设为观测次数与理论次数无差异。
组件配置
您可以使用以下任意一种方式,配置卡方拟合性检验组件参数。
方式一:可视化方式
在Designer工作流页面配置组件参数。
参数 | 描述 |
检验列 | 进行训练的检验数据列。 |
类别概率 | 类别概率配置,格式为 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name chisq_test
-project algo_public
-DinputTableName=pai_chisq_test_input
-DcolName=f0
-DprobConfig=0:0.3,1:0.7
-DoutputTableName=pai_chisq_test_output0
-DoutputDetailTableName=pai_chisq_test_output0_detail
参数 | 是否必须 | 描述 | 默认值 |
inputTableName | 是 | 输入表的名称。 | 无 |
colName | 是 | 列名称 | 无 |
outputTableName | 是 | 输出表名称 | 无 |
outputDetailTableName | 是 | 输出详细表名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。 | 默认为空 |
probConfig | 否 | 类别概率配置,格式为 | 默认所有概率值相等 |
示例
测试数据
create table pai_chisq_test_input as select * from ( select '1' as f0,'2' as f1 union all select '1' as f0,'3' as f1 union all select '1' as f0,'4' as f1 union all select '0' as f0,'3' as f1 union all select '0' as f0,'4' as f1 )tmp;
PAI命令
PAI -name chisq_test -project algo_public -DinputTableName=pai_chisq_test_input -DcolName=f0 -DprobConfig=0:0.3,1:0.7 -DoutputTableName=pai_chisq_test_output0 -DoutputDetailTableName=pai_chisq_test_output0_detail
输出说明
输出JSON格式的表outputTableName,只有一行一列。
{ "Chi-Square": { "comment": "皮尔逊卡方", "df": 1, "p-value": 0.75, "value": 0.2380952380952381 } }
输出详细表outputDetailTableName,字段如下。
column name
comment
参数colName
类别
observed
观察频率
expected
期望频率
residuals
标准误差
(residuals = (observed-expected) / sqrt(expected)
数据展示