高斯混合模型(Gaussian Mixture Model)表示在總體分布中包含K個高斯子分布的機率模型。您可以使用高斯混合模型訓練組件實現模型分類。本文為您介紹高斯混合模型訓練組件的配置方法。
使用限制
支援的計算引擎為MaxCompute、Flink或DLC。
可視化配置組件參數
Designer支援通過可視化的方式,配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 向量列名 | 向量列對應的列名。 |
參數設定 | 收斂閾值 | 當兩輪迭代的中心點距離小於收斂閾值時,演算法收斂。預設為1.0E~4。 |
聚類中心點數量 | 聚類中心點的數量,預設為2。 | |
最大迭代步數 | 最大迭代步數,預設為100。 | |
隨機數種子 | 正整數,預設為0。 | |
執行調優 | 節點個數 | 與單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。具體配置方法,詳情請參見附錄:如何預估資源的使用量。 |
單個節點記憶體大小,單位M | 取值範圍為1024 MB~64*1024 MB,具體配置方法,詳情請參見附錄:如何預估資源的使用量。 |
附錄:如何預估資源的使用量
您可以參考以下樣本,來預估資源的使用量。
如何預估每個節點的記憶體大小?
假設聚類中心點數量為K,輸入資料的向量維度為M,則每個節點需要配置的記憶體大小為:M × M × K × 8 × 2 ×12,即M × M × K × 8 × 2 × 12 ÷ 1024 ÷ 1024 MB。通常每個節點的記憶體配置為8 GB。
如何預估節點的個數?
建議按照輸入資料的大小配置。例如:輸入資料大小為X GB,則建議使用5X個節點。如果資源不足,可以適當降低節點數量。由於存在通訊開銷,隨著節點數量的增加,分布式訓練任務速度會先變快,後變慢。如果您觀測到訓練任務隨著節點數量增加之後,速度變慢,則應該停止增加節點數量。
該演算法組件支援的資料量大小?
建議向量維度小於200。