全部產品
Search
文件中心

MaxCompute:概述

更新時間:Aug 15, 2024

SQLML是MaxCompute提供的應用機器學習能力的SQL語言入口。MaxCompute SQLML在底層依賴Platform for AI平台做模型建立、預測、評估等操作。本文為您介紹SQLML的功能、支援的機器學習模型、支援的預測模型函數和評估模型函數。

功能介紹

MaxCompute SQLML功能依賴MaxCompute和人工智慧平台 PAI阿里雲產品。您可以通過用戶端開發MaxCompute SQLML作業,基於Platform for AI對MaxCompute上的資料進行學習,並利用機器學習模型對資料進行預測,進而為業務規劃提供指導。其中:

MaxCompute SQLML可以協助資料開發工程師、分析師和資料科學家,使用SQL語言建立、訓練和應用機器學習模型。同時助力SQL從業人員利用現有的SQL技能就可以應用機器學習,無需做資料移轉,實現機器學習的能力。

使用說明

MaxCompute SQLML功能的使用流程如下:

  1. 開通MaxCompute、DataWorks(基礎版)及Platform for AI服務(PAI(Studio、DSW、EAS)後付費)。

  2. 準備資料集

    用於模型訓練、預測的資料資訊。

  3. 建立或配置DataWorks工作空間,選擇計算引擎服務為MaxCompute,選擇機器學習服務為PAI Studio

  4. 通過DataWorks建立待匯入資料集資訊的表並匯入資料。

  5. 對匯入的資料按照模型要求進行處理,並建立訓練資料集和測試資料集。訓練資料集用於模型訓練,測試資料集用於預測。

  6. 建立機器學習模型,並通過MaxCompute提供的預測模型函數進行預測。

  7. 通過MaxCompute提供的評估模型函數評估預測結果的準確性。

快速使用樣本請參見快速入門

支援的機器學習模型

MaxCompute SQLML當前支援如下機器學習模型:

  • 羅吉斯迴歸二分類:模型名稱為logisticregression_binary。更多資訊,請參見線性支援向量機

  • 羅吉斯迴歸多分類:模型名稱為logisticregression_multi。更多資訊,請參見PS-SMART多分類

  • 線性迴歸:模型名稱為linearregression。更多資訊,請參見GBDT迴歸

支援的預測模型函數

MaxCompute SQLML當前支援的預測模型函數為ml_predict,文法格式如下:

ml_predict(model <model_name>, table <data_source>[, map<string, string> <parameters>])
  • model_name:必填。建立的模型名稱。

  • data_source:必填。用於預測的資料,可以為表或一條SELECT語句。

  • parameters:可選。用於預測的參數,參數和Platform for AI平台的參數一致,請參見線性支援向量機PS-SMART多分類GBDT迴歸

支援的評估模型函數

MaxCompute SQLML當前支援如下評估模型函數,用於評估預測結果的準確性:

  • 二分類評估:通過內建函數ml_evaluate實現。支援計算AUC、KS及F1 score等。文法格式如下:

    ml_evaluate(table <data_source>[, map<string, string> <parameters>])
  • 多分類評估:通過內建函數ml_multiclass_evaluate實現。基於模型的預測結果和原始結果,評估多分類演算法模型的優劣,指標包括Accuracy、kappa、F1-Score等。文法格式如下:

    ml_multiclass_evaluate(table <data_source>[, map<string, string> <parameters>])
  • 線性迴歸評估:通過內建函數ml_regression_evaluate實現。基於模型的預測結果和原始結果,評價迴歸演算法模型的優劣,包含指標和殘差長條圖。其中:指標包括SST、SSE、SSR、R2、R、 MSE、RMSE、MAE、MAD、MAPE、count、yMean和predictMean。文法格式如下:

    ml_regression_evaluate(table <data_source>[, map<string, string> <parameters>])

上述文法格式中:

  • data_source:必填。待評估的資料。需要包含label結果和prediction result,可以為表或一條SELECT語句。

  • parameters:可選。預測的參數,參數和Platform for AI平台的參數一致,請參見線性支援向量機PS-SMART多分類GBDT迴歸