1つのサンプルTテスト - Platform For AI - Alibaba Cloud ドキュメントセンター

1つのサンプルT検定は、変数の全体平均と特定の値との間に有意差が存在するかどうかを評価するために使用される統計的方法です。この試験は、データが正規分布に従うことを仮定し、これは、サンプルサイズが小さい場合に特に重要です。 T統計を計算し、自由度に基づいてT分布表を参照することで、平均差の有意性について結論を出すことができます。

コンポーネントの設定

方法1: Machine Learning Designerでコンポーネントを構成する

パイプラインページに1つのサンプルTテストコンポーネントを追加し、次のパラメーターを設定します。

カテゴリ	パラメーター	説明
フィールド設定	サンプル1列	サンプル1を含むカラム。
パラメーター設定	代替仮説タイプ	対立仮説タイプ。有効な値：両側: 両側検定。これは、サンプル平均が仮定された平均と等しくないことを意味する。 less: 左側検定。これは、サンプルの平均が仮定された平均よりも小さいことを意味します。大きい: 右側検定。これは、サンプルの平均が仮定された平均よりも大きいことを意味します。
	信頼レベル	テスト結果の信頼レベル。有効な値: 0.8、0.9、0.95、0.99、0.995、0.999
	仮定された平均	仮定された平均。
	コア番号	コアの数。値は正の整数である必要があります。
	コアあたりのメモリサイズ	各コアのメモリサイズ。有効な値: 1 ~ 65536 単位：MB。

方法2: PAIコマンドを使用する

PAIコマンドを使用して、One Sample T Testのパラメーターを設定します。詳細については、「SQLスクリプト」をご参照ください。

pai -name t_test -project algo_public
    -DxTableName=pai_t_test_all_type
    -DxColName=col1_double
    -DoutputTableName=pai_t_test_out
    -DxTablePartitions=ds=2010/dt=1
    -Dalternative=less
    -Dmu=47
    -DconfidenceLevel=0.95

パラメーター	必須 / 任意	デフォルト値	説明
xTableName	可	なし	入力テーブルの名前。
xColName	可	なし	テスト用に入力テーブルから選択する列。
outputTableName	可	なし	出力テーブルの名前。
xTablePartitions	不可	ヌル	入力テーブルから選択するパーティション。
alternative	不可	two.sided	対立仮説タイプ。有効な値: two.sided、less、greater。
mu	不可	0	仮定された平均。
confidenceLevel	不可	0.95	信頼レベル。有効な値: 0.8、0.9、0.95、0.99、0.995、0.999。

サンプル出力

{
    "AlternativeHypthesis": "mean not equals to 0",
    "ConfidenceInterval": "(44.72234194006504, 46.27765805993496)",
    "ConfidenceLevel": 0.95,
    "alpha": 0.05,
    "df": 99,
    "mean": 45.5,
    "p": 0,
    "stdDeviation": 3.919647479510927,
    "t": 116.081867662439
}