全部產品
Search
文件中心

Platform For AI:組件參考:所有組件匯總

更新時間:Jul 13, 2024

本文為您介紹Designer支援的組件列表。

組件類型

組件

描述

自訂群組件

自訂群組件

支援在AI資產管理中建立自訂群組件,自訂群組件建立成功後,您可以在Designer中將該組件與官方組件串聯使用進行模型訓練。

源/目標

讀OSS資料

該組件用來讀取Object Storage Service Bucket路徑下的檔案或檔案夾。

讀CSV檔案

該組件支援從OSS、HTTP、HDFS讀取CSV類型的檔案資料。

讀資料表

該組件用於讀取MaxCompute表資料,預設讀取本專案的表資料。

寫資料表

該組件支援將上遊資料寫入MaxCompute中。

資料預先處理

隨機採樣

該組件按照給定的比例或者數目,對輸入進行隨機獨立採樣。

加權採樣

以加權方式產生採樣資料。

過濾與映射

該組件可以對資料按照過濾運算式進行篩選,並且您可以修改輸出欄位名稱。

分層採樣

給定一個分組列,該組件按照這些列的不同值,將輸入資料分成不同的組,並在每組中分別進行隨機採樣。

JOIN

該組件將兩張表通過關聯資訊,合成一張表,並確定輸出的欄位,與SQL的JOIN語句功能類似。

合并列

該組件將兩張表的資料按列合并,需要表的行數保持一致,否則報錯。如果兩張表只有一張存在分區,則分區表需要串連第二個輸入連接埠。

合并行(UNION)

該組件是將兩張表的資料按行合并,左表及右表選擇輸出的欄位個數以及類型應保持一致。整合了UNION和UNION ALL的功能。

類型轉換

該組件是可以將任意類型特徵轉成STRING、DOUBLE和INT特徵,並支援轉換異常時的缺失值填充。

增加序號列

該組件是提供的增加序號列組件,您可以在資料表的第一列追加ID列。

拆分

該組件是對資料進行隨機拆分,用於產生訓練和測試集。

缺失值填充

您可以通過可視化或PAI命令的方式,配置該組件參數。

歸一化

該組件支援將稠密資料或稀疏資料進行歸一化處理。

標準化

該組件分為可分化方式和PAI命令方式產生標準化執行個體。

KV2Table

該組件可以將KV(Key:Value)格式的錶轉換為普通表格式。

Table2KV

該組件分為可分化方式和PAI命令方式,可以轉化普通表為KV(Key:Value)格式的表。

特徵工程

特徵重要性過濾

特徵重要性過濾組件為線性特徵重要性、GBDT特徵重要性和隨機森林特徵重要性等組件提供過濾功能,支援過濾TopN的特徵。

主成分分析

該組件是研究如何通過少數主成分揭示多個變數間的內部結構,考察多個變數間相關性的一種多元統計方法。

特徵尺度變換

您可以通過該組件對稠密或稀疏的數值類特徵進行常見的尺度變換。

特徵離散

該組件是將連續特徵按照一定的規則進行離散化。

特徵異常平滑

該組件可以將輸入特徵中包含異常的資料平滑到一定區間,支援稀疏和稠密資料格式。

奇異值分解

該組件是線性代數中一種重要的矩陣分解,是矩陣分析中正規矩陣求對角化的推廣。

異常檢測

該組件用於檢測連續值和枚舉值類特徵的資料,協助您挖掘資料中的異常點。

線性模型特徵重要性

該組件包括線性迴歸和二分類羅吉斯迴歸,支援稀疏和稠密資料格式。

離散值特徵分析

該組件用於統計離散特徵的分布情況。

隨機森林特徵重要性

您可以通過該組件計算特徵重要性。

過濾式特徵選取

該組件將根據您使用的不同特徵選取方法,從所有稀疏或稠密格式的特徵資料中選擇並過濾出TopN的特徵資料。

特徵編碼

該組件是將非線性特徵通過GBDT編碼成線性特徵。

one-hot編碼

您可以通過該組件後資料會變成稀疏,輸出結果也是KV的稀疏結構。

統計分析

資料檢視

通過資料檢視組件,您可以可視化地瞭解特徵與標籤列的分布情況及特徵的特點,以便後續進行資料分析。

共變數

該組件用于衡量兩個變數的總體誤差。

經驗機率密度圖

該組件是採用經驗分布和核心分布兩種演算法。

全表統計

該組件用於統計全表,或某些選中的列。

卡方擬合性檢驗

該組件用於變數為類型變數的情境,旨在檢驗單個多項分類型變數在各分類間的實際觀測次數與理論次數是否一致,其零假設為觀測次數與理論次數無差異。

盒狀圖

盒鬚圖是一種用作顯示一組資料分散情況的統計圖。它主要用於反映未經處理資料分布的特徵,還可以進行多組資料分布特徵的比較。

散佈圖

散佈圖是指在迴歸分析中,資料點在直角座標系平面上的分布圖。

相關係數矩陣

相關係數演算法用於計算一個矩陣中每列之間的相關係數,取值範圍為[-1,1]。系統計算時,count數按兩列間同時非空的元素個數計算,兩兩列之間可能不同。

雙樣本T檢驗

該組件基於統計學原理用來檢驗兩個樣本的均值是否有顯著差異。

單樣本T檢驗

該組件旨在檢驗某個變數的總體均值與某個指定值之間是否存在顯著差異,其檢驗的樣本必須總體服從常態分佈。

正態檢驗

該組件通過觀測值判斷總體是否服從常態分佈,是統計判決中重要的一種特殊的擬合優度假設檢驗。

洛倫茲曲線

通過該組件,您可以直觀地看到一個國家或地區收入分配狀況。

百分位

該組件是統計學術語,用於計算資料表列資料的百分位。

皮爾森係數

該組件是一種線性相關係數,用於反映兩個變數線性相關程度的統計量。

長條圖

該組件(Histogram)又稱品質分布圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示資料分布的情況。

機器學習

預測

該組件的輸入為訓練模型和預測資料,輸出為預測結果。

XGBoost訓練

該組件演算法在Boosting演算法的基礎上進行了擴充和升級,具有較好的易用性和魯棒性,被廣泛用在各種機器學習生產系統和競賽領域。當前支援分類和迴歸。

XGBoost預測

該組件演算法在Boosting演算法的基礎上進行了擴充和升級,具有較好的易用性和魯棒性,被廣泛用在各種機器學習生產系統和競賽領域。當前支援分類和迴歸。

線性支援向量機

該組件是基於統計學習理論的一種機器學習方法,通過尋求結構風險最小化,提高學習機泛化能力,從而實現經驗風險和置信範圍最小化。

羅吉斯迴歸二分類

該組件是一個二分類演算法,支援稀疏及稠密資料格式。

GBDT二分類

該組件的原理是設定閾值,如果特徵值大於閾值,則為正例,反之為負例。

PS-SMART二分類

參數伺服器PS(Parameter Server)致力於解決大規模的離線及線上訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基於PS實現的迭代演算法。

PS羅吉斯迴歸二分類

該組件是經典的二分類演算法,廣泛應用於廣告及搜尋情境。

PS-SMART多分類

參數伺服器PS(Parameter Server)致力於解決大規模的離線及線上訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基於PS實現的迭代演算法。

K近鄰

該組件進行分類的原理是針對預測表的每行資料,從訓練表中選擇與其距離最近的K條記錄,將這K條記錄中類別數量最多的類,作為該行的類別。

羅吉斯迴歸多分類

該組件是一個二分類演算法,PAI提供的羅吉斯迴歸可以支援多分類,且支援稀疏及稠密資料格式。

隨機森林

該組件是一個包括多決策樹的分類器,其分類結果由單棵樹輸出類別的眾數決定。

樸素貝葉斯

該組件是一種基於獨立假設的貝葉斯定理的機率分類演算法。

K均值聚類

該組件會首先隨機播放K個對象作為每個簇的初始聚類中心,然後計算剩餘對象與各簇中心的距離,將其分配至距離最近的簇,再重新計算每個簇的聚類中心。

DBSCAN

您可以使用DBSCAN組件構建聚類模型。

高斯混合模型訓練

您可以使用高斯混合模型訓練組件實現模型分類。

DBSCAN預測

您可以使用DBSCAN預測組件基於DBSCAN訓練模型來預測新的點資料所屬的簇。

高斯混合模型預測

您可以使用高斯混合模型預測組件基於訓練好的高斯混合模型進行聚類預測。

GBDT迴歸

該組件是一種迭代決策樹演算法,適用於線性及非線性迴歸情境。

線性迴歸

該組件是分析因變數和多個自變數之間的線性關聯式模式。

PS-SMART迴歸

該組件致力於解決大規模的離線及線上訓練任務,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decision Tree)基於PS實現的迭代演算法。

PS線性迴歸

該組件是分析因變數和多個自變數之間的線性關聯式模式,參數伺服器PS(Parameter Server)致力於解決大規模的離線及線上訓練任務。

二分類評估

該組件是通過計算AUC、KS及F1 Score指標,輸出KS曲線、PR曲線、ROC曲線、LIFT Chart及Gain Chart。

迴歸模型評估

該組件是指基於預測結果和原始結果,評估迴歸演算法模型的優劣性,從而輸出評估指標及殘差長條圖。

聚類模型評估

該組件是基於未經處理資料和聚類結果,評估聚類模型的優劣性,從而輸出評估指標。

混淆矩陣

該組件適用於監督學習,與無監督學習中的匹配矩陣對應。

多分類評估

該組件是指基於分類模型的預測結果和原始結果,評估多分類演算法模型的優劣性,從而輸出評估指標(例如Accuracy、Kappa及F1-Score)。

深度學習

深度學習架構及開通說明

阿里雲Machine Learning Platform for AI支援深度學習架構,您可以使用這些架構及硬體資源來使用深度學習演算法。

時間序列

x13_arima

該組件是基於開源X-13ARIMA-SEATS封裝的針對季節性調整的Arima演算法。

x13_auto_arima

該組件包括自動ARIMA模型選擇程式,主要基於TRMO(1996)及後續修訂中實施的Gomez和Maravall(1998)的程式。

Prophet

該組件對每一行的MTable資料,進行Prophet時間序列預測,給出下一時間段的預測結果。

MTable彙總

該組件將Table按照分組列彙總成MTable。

MTable展開

該組件將MTable展開成Table。

推薦方法

FM演算法

FM(Factorization Machine)演算法兼顧特徵之間的相互作用,是一種非線性模型,適用於電商、廣告及直播的推薦情境。

ALS矩陣分解

交替最小二乘ALS(Alternating Least Squares)演算法的原理是對疏鬆陣列進行模型分解,評估缺失項的值,從而得到基本的訓練模型。

swing訓練

該組件是一種Item召回演算法,您可以使用swing訓練組件基於User-Item-User原理衡量Item的相似性。

swing推薦

該組件是swing的批處理預測組件,您可以使用該組件基於swing訓練模型和預測資料進行離線預測。

協同過濾etrec

etrec是基於item的協同過濾演算法,輸入為兩列,輸出為item之間的相似性TopN。

向量召回評估

向量召回評估組件計算召回的hitrate結果。hitrate作為結果好壞的評價,hitrate越高表示訓練產出的向量去召迴向量的結果越準確。

異常檢測

局部異常因子異常檢測

該組件是根據資料樣本的局部異常因子值(Local Outlier Factor, LOF)判斷樣本是否異常。

IForest異常檢測

該組件使用sub-sampling演算法,降低了演算法的計算複雜度,可以識別資料中的異常點,在異常檢測領域有顯著的應用效果。

One-Class SVM異常檢測

該組件與傳統SVM不同,是一種非監督的學習演算法。您可以使用One-Class SVM異常檢測通過學習邊界對異常點進行預測。

自然語言處理

文本摘要預測

該組件旨在從冗長、重複的文本序列中抽取、精鍊或總結出其中的要點資訊,新聞標題摘要是文本摘要的一個特例。您可以使用文本摘要預測組件,調用指定預訓練模型對新聞文本進行預測,從而產生新聞標題。

機器閱讀理解預測

使用該組件對產生的機器閱讀理解訓練模型進行離線預測。

文本摘要訓練

該組件旨在從冗長、重複的文本序列中抽取、精鍊或總結出其中的要點資訊。新聞標題摘要是文本摘要的一個特例。您可以使用文本摘要訓練組件進行模型訓練,產生新聞標題,用來概括新聞的中心思想和重點資訊。

機器閱讀理解訓練

使用該組件訓練機器閱讀理解模型,該模型針對給定的文檔及問題,進行快速理解與問答。

Split Word

該組件基於AliWS(Alibaba Word Segmenter)詞法分析系統,對指定列的內容進行分詞,分詞後的各個詞語之間以空格分隔。

三元組轉kv

該組件用於將三元組表(row,col,value)轉換為kv表(row,[col_id:value])

字串相似性

該組件是機器學習領域的一個基本操作,主要用於資訊檢索、自然語言處理和生物資訊學等領域。

字串相似性-topN

該組件用於計算字串相似性並篩選出最相似的Top N個資料。

停用詞過濾

該組件是文本分析中的一個預先處理方法,用於過濾分詞結果中的雜訊(例如的、是或啊)。

ngram-count

該組件是語言模型訓練其中一個步驟。在詞的基礎上產生n-gram,並統計在全部語料集上,對應n-gram的個數。

文本摘要

該組件是文獻中簡單連貫的短文,能夠全面準確地反映該文獻的中心思想。自動文摘利用電腦自動從原始文獻中提取摘要內容。

關鍵詞抽取

該組件是自然語言處理中的重要技術之一,具體是指從文本中將與這篇文章意義相關性較強的一些詞抽取出來。

句子拆分

將一段文本按標點進行句子拆分。該組件主要用於文本摘要前的預先處理,將一段文本拆分成一句一行的形式。

語義向量距離

基於演算法語義向量結果(如Word2Vec產生的詞向量),計算給定的詞(或者句子)的擴充詞(或者擴充句),即計算其中某一向量距離最近的向量集合。其中一個用法是,基於Word2Vec產生的詞向量結果,根據輸入的詞返回最為相似的詞列表。

Doc2Vec

您可以通過Doc2Vec演算法組件將文章映射為向量。輸入為詞彙表,輸出為文檔向量表、詞向量表或詞彙表。

條件隨機場

條件隨機場CRF(conditional random field)是給定一組輸入隨機變數條件下,另一組輸出隨機變數條件的機率分布模型,其特點是假設輸出隨機變數構成馬爾可夫隨機場。

文章相似性

文章相似性是在字串相似性的基礎上,基於詞,計算兩兩文章或者句子之間的相似性。

PMI

該組件演算法統計若干文章中所有詞的共現情況,計算兩兩之間的PMI(point mutual information)。

條件隨機場預測

該組件是基於linearCRF線上預測模型的演算法組件,主要應用於處理序列標註問題。

Split Word(產生模型)

該組件基於AliWS(Alibaba Word Segmenter)詞法分析系統,根據參數和自訂字典產生分詞模型。

詞頻統計

該組件是指輸入一些字串(手動輸入或者從指定的檔案讀取),用程式來統計這些字串中總共有多少個單詞,每個單詞出現的次數。

TF-IDF

該組件是一種用於資訊檢索與文本挖掘的常用加權技術。通常在搜尋引擎中應用,可以作為檔案與使用者查詢之間相關程度的度量或評級。

PLDA

在Machine Learning Platform for AI平台,您可以通過給PLDA組件設定topic參數值,從而讓每篇文檔抽象出不同主題。

Word2Vec

Word2Vec演算法組件利用神經網路,通過訓練,將詞映射為K維度空間向量,且支援對錶示詞的向量進行操作並和語義相對應。輸入為單詞列或詞彙表,輸出為詞向量表和詞彙表。

網路分析

樹深度

該組件能夠輸出每個節點的所處深度和樹ID。

k-Core

該組件用於在圖中找出符合指定核心度的緊密關聯的子圖結構,節點核心數的最大值被稱為圖的核心數。

單源最短路徑

該組件使用Dijkstra演算法,給定起點,輸出該點和其他所有節點的最短路徑。

PageRank

該組件起源於網頁的搜尋排序,即使用網頁的連結結構計算每個網頁的等級排名。

標籤傳播聚類

該組件LPA(Label Propagation Algorithm)是基於圖的半監督學習方法,其基本思路是節點的標籤(community)依賴其相鄰節點的標籤資訊,影響程度由節點相似性決定,並通過傳播迭代更新達到穩定。

標籤傳播分類

該組件為半監督的分類演算法,原理為用已標記節點的標籤資訊去預測未標記節點的標籤資訊。

Modularity

該組件是一種評估社區網路結構的指標,用來評估網路結構中劃分出來社區的緊密程度,通常0.3以上是比較明顯的社區結構。

最大連通子圖

在無向圖G中,若從頂點A到頂點B有路徑相連,則稱A和B是連通的。在圖G中存在若干子圖,如果其中每個子圖中所有頂點之間都是連通的,但在不同子圖間不存在頂點連通,那麼稱圖G的這些子圖為最大連通子圖。

點聚類係數

該組件是在無向圖G中,計算每一個節點周圍的稠密度,星狀網路稠密度為0,全聯通網路稠密度為1。

邊聚類係數

該組件演算法是指在無向圖G中,計算每一條邊周圍的稠密度。

計數三角形

該組件是指在無向圖G中,輸出所有三角形。

金融板塊

資料轉換模組

通過該組件您可以對資料進行歸一化、離散化、Index化或WOE轉換。

評分卡訓練

該組件是信用風險評估領域常用的建模工具,其原理是通過分箱輸入將原始變數離散化後再使用線性模型(羅吉斯迴歸或線性迴歸等)進行模型訓練,其中包含特徵選取及分數轉換等功能。

評分卡預測

該組件是對未經處理資料根據評分卡訓練組件產出的模型結果進行預測打分。

分箱

該組件可以進行特徵離散化,即將連續的資料進行分段,使其變為多個離散化區間。分箱組件支援等頻分箱、等寬分箱及自動分箱。

樣本穩定指數(PSI)

該組件是衡量樣本變化所產生的位移量的一種重要指標,通常用于衡量樣本的穩定程度。

視覺演算法

映像分類訓練(torch)

如果您的業務情境涉及映像分類,則可以通過映像分類訓練(torch)組件構建映像分類模型,從而進行模型推理。

視頻分類訓練

您可以使用視頻分類訓練演算法組件對其進行模型訓練,從而獲得用於推理的視頻分類模型。

映像檢測訓練(easycv)

通過該組件構建目標檢測模型,對映像中的某些高風險實體進行框選檢測。

映像自監督訓練

您可以通過該組件將原始的尚未標註的映像直接進行訓練,從而獲得用於映像特徵提取的模型。

映像度量學習訓練(raw)

您通過該組件構建度量學習模型,從而進行模型推理。

映像關鍵點訓練

如果您的業務情境涉及人體相關的關鍵點檢測,則可以通過映像關鍵點訓練組件構建關鍵點模型,從而進行模型推理。

模型量化

該組件提供主流的模型量化演算法,您可以使用模型量化對模型進行壓縮提速,實現高效能推理。

模型剪枝

該組件提供主流的模型剪枝演算法AGP(taylorfo),您可以使用模型剪枝對模型進行壓縮提速,實現高效能推理。

工具

離線模型(OfflineModel)相關組件

該組件是儲存在MaxCompute中的一種資料結構,基於PAICommand架構的傳統機器學習演算法產生的模型會以離線模型格式儲存在對應的MaxCompute專案中,您可以使用離線模型相關組件擷取離線模型做離線預測。

通用模型匯出

您可以使用通用模型匯出組件,將在MaxCompute中訓練得到的模型匯出到指定的OSS路徑。

自訂指令碼

SQL指令碼

該組件是自訂SQL組件,您可以通過SQL指令碼編輯器編寫SQL語句,並提交至MaxCompute執行。

Python指令碼

該組件定義安裝依賴包及運行自訂的Python函數。

PyAlink指令碼

該組件可以進行調用Alink的分類演算法做分類、 調用迴歸演算法做迴歸、調用推薦演算法做推薦等。PyAlink指令碼也支援與其他Designer的演算法組件無縫銜接, 完成業務鏈路的搭建及效果驗證。

時間視窗SQL指令碼

該組件在普通SQL指令碼組件基礎上增加了多日期迴圈執行功能,用於並存執行某段時間內天層級SQL任務。

Beta組件

Lasso迴歸訓練

該組件是一種壓縮估計演算法。

Lasso迴歸預測

該組件支援稀疏、稠密兩種資料格式。您可以使用該組件做一些數值型變數的預測,比如貸款額度預測、溫度預測等。

嶺迴歸預測

該組件進行做數值型變數的預測,包括樓價預測、銷售量預測、濕度預測等。

嶺迴歸訓練

該組件是對不適定問題進行迴歸分析時,最常用的正則化方法。