SQLML是MaxCompute提供的應用機器學習能力的SQL語言入口。MaxCompute SQLML在底層依賴Platform for AI平台做模型建立、預測、評估等操作。本文為您介紹SQLML的功能、支援的機器學習模型、支援的預測模型函數和評估模型函數。
功能介紹
MaxCompute SQLML功能依賴MaxCompute和人工智慧平台 PAI阿里雲產品。您可以通過用戶端開發MaxCompute SQLML作業,基於Platform for AI對MaxCompute上的資料進行學習,並利用機器學習模型對資料進行預測,進而為業務規劃提供指導。其中:
MaxCompute:提供應用機器學習能力的SQL語言入口SQLML。
用戶端:SQL語言操作平台,您可以自行選擇DataWorks(推薦)、MaxCompute SDK(Java SDK或Python SDK)、MaxCompute用戶端(odpscmd)或MaxCompute Studio。
Platform for AI:提供機器學習模型。
MaxCompute SQLML可以協助資料開發工程師、分析師和資料科學家,使用SQL語言建立、訓練和應用機器學習模型。同時助力SQL從業人員利用現有的SQL技能就可以應用機器學習,無需做資料移轉,實現機器學習的能力。
使用說明
MaxCompute SQLML功能的使用流程如下:
開通MaxCompute、DataWorks(基礎版)及Platform for AI服務(PAI(Studio、DSW、EAS)後付費)。
準備資料集
用於模型訓練、預測的資料資訊。
建立或配置DataWorks工作空間,選擇計算引擎服務為MaxCompute,選擇機器學習服務為PAI Studio。
通過DataWorks建立待匯入資料集資訊的表並匯入資料。
對匯入的資料按照模型要求進行處理,並建立訓練資料集和測試資料集。訓練資料集用於模型訓練,測試資料集用於預測。
建立機器學習模型,並通過MaxCompute提供的預測模型函數進行預測。
通過MaxCompute提供的評估模型函數評估預測結果的準確性。
快速使用樣本請參見快速入門。
支援的機器學習模型
MaxCompute SQLML當前支援如下機器學習模型:
羅吉斯迴歸二分類:模型名稱為logisticregression_binary。更多資訊,請參見線性支援向量機。
羅吉斯迴歸多分類:模型名稱為logisticregression_multi。更多資訊,請參見PS-SMART多分類。
線性迴歸:模型名稱為linearregression。更多資訊,請參見GBDT迴歸。
支援的預測模型函數
MaxCompute SQLML當前支援的預測模型函數為ml_predict
,文法格式如下:
ml_predict(model <model_name>, table <data_source>[, map<string, string> <parameters>])
model_name:必填。建立的模型名稱。
data_source:必填。用於預測的資料,可以為表或一條SELECT語句。
parameters:可選。用於預測的參數,參數和Platform for AI平台的參數一致,請參見線性支援向量機、PS-SMART多分類或GBDT迴歸。
支援的評估模型函數
MaxCompute SQLML當前支援如下評估模型函數,用於評估預測結果的準確性:
二分類評估:通過內建函數
ml_evaluate
實現。支援計算AUC、KS及F1 score等。文法格式如下:ml_evaluate(table <data_source>[, map<string, string> <parameters>])
多分類評估:通過內建函數
ml_multiclass_evaluate
實現。基於模型的預測結果和原始結果,評估多分類演算法模型的優劣,指標包括Accuracy、kappa、F1-Score等。文法格式如下:ml_multiclass_evaluate(table <data_source>[, map<string, string> <parameters>])
線性迴歸評估:通過內建函數
ml_regression_evaluate
實現。基於模型的預測結果和原始結果,評價迴歸演算法模型的優劣,包含指標和殘差長條圖。其中:指標包括SST、SSE、SSR、R2、R、 MSE、RMSE、MAE、MAD、MAPE、count、yMean和predictMean。文法格式如下:ml_regression_evaluate(table <data_source>[, map<string, string> <parameters>])
上述文法格式中:
data_source:必填。待評估的資料。需要包含label結果和prediction result,可以為表或一條SELECT語句。
parameters:可選。預測的參數,參數和Platform for AI平台的參數一致,請參見線性支援向量機、PS-SMART多分類或GBDT迴歸。