1つのサンプルT検定は、変数の全体平均と特定の値との間に有意差が存在するかどうかを評価するために使用される統計的方法です。 この試験は、データが正規分布に従うことを仮定し、これは、サンプルサイズが小さい場合に特に重要です。 T統計を計算し、自由度に基づいてT分布表を参照することで、平均差の有意性について結論を出すことができます。
コンポーネントの設定
方法1: Machine Learning Designerでコンポーネントを構成する
パイプラインページに1つのサンプルTテストコンポーネントを追加し、次のパラメーターを設定します。
カテゴリ | パラメーター | 説明 |
フィールド設定 | サンプル1列 | サンプル1を含むカラム。 |
パラメーター設定 | 代替仮説タイプ | 対立仮説タイプ。 有効な値:
|
信頼レベル | テスト結果の信頼レベル。 有効な値: 0.8、0.9、0.95、0.99、0.995、0.999 | |
仮定された平均 | 仮定された平均。 | |
コア番号 | コアの数。 値は正の整数である必要があります。 | |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 有効な値: 1 ~ 65536 単位:MB。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用して、One Sample T Testのパラメーターを設定します。 詳細については、「SQLスクリプト」をご参照ください。
pai -name t_test -project algo_public
-DxTableName=pai_t_test_all_type
-DxColName=col1_double
-DoutputTableName=pai_t_test_out
-DxTablePartitions=ds=2010/dt=1
-Dalternative=less
-Dmu=47
-DconfidenceLevel=0.95
パラメーター | 必須 / 任意 | デフォルト値 | 説明 |
xTableName | 可 | なし | 入力テーブルの名前。 |
xColName | 可 | なし | テスト用に入力テーブルから選択する列。 |
outputTableName | 可 | なし | 出力テーブルの名前。 |
xTablePartitions | 不可 | ヌル | 入力テーブルから選択するパーティション。 |
alternative | 不可 | two.sided | 対立仮説タイプ。 有効な値: two.sided、less、greater。 |
mu | 不可 | 0 | 仮定された平均。 |
confidenceLevel | 不可 | 0.95 | 信頼レベル。 有効な値: 0.8、0.9、0.95、0.99、0.995、0.999。 |
サンプル出力
{
"AlternativeHypthesis": "mean not equals to 0",
"ConfidenceInterval": "(44.72234194006504, 46.27765805993496)",
"ConfidenceLevel": 0.95,
"alpha": 0.05,
"df": 99,
"mean": 45.5,
"p": 0,
"stdDeviation": 3.919647479510927,
"t": 116.081867662439
}