本文為您介紹Designer提供的卡方擬合性檢驗。卡方擬合性檢驗適用於變數為類型變數的情境,旨在檢驗單個多項分類型變數在各分類間的實際觀測次數與理論次數是否一致,其零假設為觀測次數與理論次數無差異。
組件配置
您可以使用以下任意一種方式,配置卡方擬合性檢驗組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
參數 | 描述 |
檢驗列 | 進行訓練的檢驗資料列。 |
類別機率 | 類別機率配置,格式為 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name chisq_test
-project algo_public
-DinputTableName=pai_chisq_test_input
-DcolName=f0
-DprobConfig=0:0.3,1:0.7
-DoutputTableName=pai_chisq_test_output0
-DoutputDetailTableName=pai_chisq_test_output0_detail
參數 | 是否必須 | 描述 | 預設值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
colName | 是 | 列名稱 | 無 |
outputTableName | 是 | 輸出表名稱 | 無 |
outputDetailTableName | 是 | 輸出詳細表名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支援以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 預設為空白 |
probConfig | 否 | 類別機率配置,格式為 | 預設所有機率值相等 |
樣本
測試資料
create table pai_chisq_test_input as select * from ( select '1' as f0,'2' as f1 union all select '1' as f0,'3' as f1 union all select '1' as f0,'4' as f1 union all select '0' as f0,'3' as f1 union all select '0' as f0,'4' as f1 )tmp;
PAI命令
PAI -name chisq_test -project algo_public -DinputTableName=pai_chisq_test_input -DcolName=f0 -DprobConfig=0:0.3,1:0.7 -DoutputTableName=pai_chisq_test_output0 -DoutputDetailTableName=pai_chisq_test_output0_detail
輸出說明
輸出JSON格式的表outputTableName,只有一行一列。
{ "Chi-Square": { "comment": "皮爾遜卡方", "df": 1, "p-value": 0.75, "value": 0.2380952380952381 } }
輸出詳細表outputDetailTableName,欄位如下。
column name
comment
參數colName
類別
observed
觀察頻率
expected
期望頻率
residuals
標準誤差
(residuals = (observed-expected) / sqrt(expected)
資料展示