單樣本T檢驗是一種統計方法,用於評估樣本均值與已知總體均值之間是否存在顯著差異。該檢驗假設總體資料服從常態分佈,特別是在樣本量較小時,這一假設尤為關鍵。通過計算T統計量,並參考自由度尋找T分布表,可以得出關於均值差異的顯著性結論。
組件配置
方式一:可視化方式
在Designer工作流程頁面添加單樣本T檢驗組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
欄位設定 | 樣本1所在列 | 樣本資料所在的列。 |
參數設定 | 對立假設類型 | 對立假設的類型,取值:
|
信賴度 | 檢測結果的信賴度,取值包括:0.8、0.9、0.95、0.99、0.995、0.999。 | |
假設均值大小 | 在原假設中假設的總體均值,與樣本均值進行比較。 | |
節點個數 | 節點個數,正整數格式。 | |
單個節點記憶體大小 | 每個節點的記憶體大小,取值範圍1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令配置單樣本T檢驗組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見情境4:在SQL指令碼組件中執行PAI命令。
pai -name t_test -project algo_public
-DxTableName=pai_t_test_all_type
-DxColName=col1_double
-DoutputTableName=pai_t_test_out
-DxTablePartitions=ds=2010/dt=1
-Dalternative=less
-Dmu=47
-DconfidenceLevel=0.95
參數 | 是否必須 | 預設值 | 描述 |
xTableName | 是 | 無 | 表名稱。 |
xColName | 是 | 無 | 需要進行T檢驗的列。 |
outputTableName | 是 | 無 | 輸出表名稱。 |
xTablePartitions | 否 | 空 | 表的分區列表。 |
alternative | 否 | two.sided | 對立假設。 |
mu | 否 | 0 | 假設的均值。 |
confidenceLevel | 否 | 0.95 | 信賴度。 |
輸出樣本
{
"AlternativeHypthesis": "mean not equals to 0",
"ConfidenceInterval": "(44.72234194006504, 46.27765805993496)",
"ConfidenceLevel": 0.95,
"alpha": 0.05,
"df": 99,
"mean": 45.5,
"p": 0,
"stdDeviation": 3.919647479510927,
"t": 116.081867662439
}