SQLMLは、Machine Learning Platform for AI (PAI) の機能を使用するためにMaxComputeが提供するSQLポータルです。 ベースレイヤでは、MaxCompute SQLMLはPAIに依存してモデルを作成、予測、評価します。 このトピックでは、SQLML機能について説明します。 また、SQLMLでサポートされている機械学習モデル、モデル予測関数、モデル評価関数についても説明します。
説明
MaxCompute SQLMLは、Alibaba Cloudサービス (MaxComputeとPAI) に依存しています。 DataWorksでMaxCompute SQLMLジョブを開発し、PAIを使用してMaxComputeデータを学習し、機械学習モデルを使用して予測を行うことができます。 次に、これらの結果を使用してビジネス計画をガイドします。
MaxCompute: PAIを使用するためのSQLポータルであるSQLMLを提供します。
クライアント: SQL操作プラットフォーム。 DataWorks (推奨) 、MaxCompute SDK (Java SDKまたはPython SDK) 、MaxCompute odpscmd、またはMaxCompute Studioを選択できます。
PAI: 機械学習モデルを提供します。
MaxCompute SQLMLは、データ開発者、アナリスト、データサイエンティストがSQLを使用して機械学習モデルを作成、トレーニング、適用するのに役立ちます。 また、SQL実務者がSQLスキルを使用して、データを移行することなくPAI機能を実装するのにも役立ちます。
使用上の注意
MaxCompute SQLMLを使用する手順:
MaxCompute、DataWorks Basic、および従量課金 (PAI Studio、DSW、EAS) を有効化します。
データセットを準備します。
データセットは、モデルのトレーニングと予測に使用されます。
DataWorksワークスペースを作成または設定します。 ワークスペースで、Compute EngineをMaxComputeに、Machine Learning ServicesをPAI Studioに設定します。
DataWorksを使用してテーブルを作成し、データセット内のデータをテーブルにインポートします。
特定のモデルの要件に基づいてインポートされたデータを処理し、トレーニングデータセットとテストデータセットを作成します。 トレーニングデータセットは、モデルをトレーニングするために使用される。 テストデータセットを使用してモデルを予測します。
MaxComputeが提供するモデル予測関数を使用して、機械学習モデルを作成し、予測を行います。
MaxComputeが提供するモデル評価関数を使用して、予測結果の精度を評価します。
使用例については、「はじめに」をご参照ください。
サポートされている機械学習モデル
MaxCompute SQLMLは、次の機械学習モデルをサポートしています。
バイナリ分類のロジスティック回帰: モデル名はlogisticregression_binaryです。 詳細については、「リニアSVM」をご参照ください。
マルチクラス分類のロジスティック回帰: モデル名はlogisticregression_multiです。 詳細については、「PS-SMARTマルチクラス分類」をご参照ください。
線形回帰: モデル名はlinearregressionです。 詳細については、「GBDT回帰」をご参照ください。
サポートされるモデル予測関数
MaxCompute SQLMLは、ml_predict
モデル予測関数をサポートしています。 構文:
ml_predict(model <model_name>, table <data_source>[, map<string, string> <parameters>])
model_name: 必須です。 このパラメータには、作成するモデルの名前を指定します。
data_source: 必須です。 このパラメーターは、予測に使用されるデータソースを指定します。これには、テーブルまたはSELECTステートメントを使用できます。
parameters: オプション。 このパラメーターは、予測に使用されるパラメーターを指定します。 パラメータはPAIと同じです。 パラメーターの詳細については、「線形SVM」、「PS-SMARTマルチクラス分類」、または「GBDT回帰」をご参照ください。
サポートされるモデル評価関数
MaxCompute SQLMLは、予測結果の精度を評価するために、次のモデル評価関数をサポートしています。
バイナリ分類評価: 組み込み関数
ml_evaluate
を使用して実装します。 曲線下面積 (AUC) 、コルモゴロフ-スミルノフ (KS) 、F1スコアなどのインデックスを使用してモデルを評価できます。 構文:ml_evaluate(table <data_source>[, map<string, string> <parameters>])
マルチクラス分類評価: 組み込み関数
ml_multiclas_evaluate
を使用して実装します。 マルチクラス分類モデルは、その予測と実際の結果に基づいて評価できます。 評価指標には、精度、カッパ、F1スコアが含まれる。 構文:ml_multiclass_evaluate(table <data_source>[, map<string, string> <parameters>])
線形回帰評価: 組み込み関数
ml_regression_evaluate
を使用して実装します。 線形アルゴリズムモデルは、その予測と、インデックスや残差ヒストグラムなどの実際の結果に基づいて評価できます。 評価指標は、SST、SSE、SSR、R2、R、MSE、RMSE、MAE、MAD、MAPE、count、yMean、predictMeanを含む。 構文:ml_regression_evaluate(table <data_source>[, map<string, string> <parameters>])
前述の構文では:
data_source: 必須です。 このパラメーターは、評価するデータを指定します。 ラベル結果と予測結果を含める必要があります。 値には、テーブルまたはSELECTステートメントを指定できます。
parameters: オプション。 このパラメーターは、予測に使用されるパラメーターを指定します。 パラメータはPAIと同じです。 パラメーターの詳細については、「線形SVM」、「PS-SMARTマルチクラス分類」、または「GBDT回帰」をご参照ください。