单样本T检验是一种统计方法,用于评估样本均值与已知总体均值之间是否存在显著差异。该检验假设总体数据服从正态分布,特别是在样本量较小时,这一假设尤为关键。通过计算T统计量,并参考自由度查找T分布表,可以得出关于均值差异的显著性结论。
组件配置
方式一:可视化方式
在Designer工作流页面添加单样本T检验组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 |
字段设置 | 样本1所在列 | 样本数据所在的列。 |
参数设置 | 对立假设类型 | 对立假设的类型,取值:
|
置信度 | 检测结果的置信度,取值包括:0.8、0.9、0.95、0.99、0.995、0.999。 | |
假设均值大小 | 在原假设中假设的总体均值,与样本均值进行比较。 | |
节点个数 | 节点个数,正整数格式。 | |
单个节点内存大小 | 每个节点的内存大小,取值范围1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令配置单样本T检验组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令。
pai -name t_test -project algo_public
-DxTableName=pai_t_test_all_type
-DxColName=col1_double
-DoutputTableName=pai_t_test_out
-DxTablePartitions=ds=2010/dt=1
-Dalternative=less
-Dmu=47
-DconfidenceLevel=0.95
参数 | 是否必须 | 默认值 | 描述 |
xTableName | 是 | 无 | 表名称。 |
xColName | 是 | 无 | 需要进行T检验的列。 |
outputTableName | 是 | 无 | 输出表名称。 |
xTablePartitions | 否 | 空 | 表的分区列表。 |
alternative | 否 | two.sided | 对立假设。 |
mu | 否 | 0 | 假设的均值。 |
confidenceLevel | 否 | 0.95 | 置信度。 |
输出示例
{
"AlternativeHypthesis": "mean not equals to 0",
"ConfidenceInterval": "(44.72234194006504, 46.27765805993496)",
"ConfidenceLevel": 0.95,
"alpha": 0.05,
"df": 99,
"mean": 45.5,
"p": 0,
"stdDeviation": 3.919647479510927,
"t": 116.081867662439
}