全部產品

Platform For AI：高斯混合模型訓練

更新時間：Jul 13, 2024

高斯混合模型（Gaussian Mixture Model）表示在總體分布中包含K個高斯子分布的機率模型。您可以使用高斯混合模型訓練組件實現模型分類。本文為您介紹高斯混合模型訓練組件的配置方法。

使用限制

支援的計算引擎為MaxCompute、Flink或DLC。

可視化配置組件參數

Designer支援通過可視化的方式，配置組件參數。

頁簽	參數	描述
欄位設定	向量列名	向量列對應的列名。
參數設定	收斂閾值	當兩輪迭代的中心點距離小於收斂閾值時，演算法收斂。預設為1.0E~4。
	聚類中心點數量	聚類中心點的數量，預設為2。
	最大迭代步數	最大迭代步數，預設為100。
	隨機數種子	正整數，預設為0。
執行調優	節點個數	與單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。具體配置方法，詳情請參見附錄：如何預估資源的使用量。
執行調優	單個節點記憶體大小，單位M	取值範圍為1024 MB~64*1024 MB，具體配置方法，詳情請參見附錄：如何預估資源的使用量。

附錄：如何預估資源的使用量

您可以參考以下樣本，來預估資源的使用量。

如何預估每個節點的記憶體大小？
假設聚類中心點數量為K，輸入資料的向量維度為M，則每個節點需要配置的記憶體大小為：M × M × K × 8 × 2 ×12，即M × M × K × 8 × 2 × 12 ÷ 1024 ÷ 1024 MB。通常每個節點的記憶體配置為8 GB。
如何預估節點的個數？
建議按照輸入資料的大小配置。例如：輸入資料大小為X GB，則建議使用5X個節點。如果資源不足，可以適當降低節點數量。由於存在通訊開銷，隨著節點數量的增加，分布式訓練任務速度會先變快，後變慢。如果您觀測到訓練任務隨著節點數量增加之後，速度變慢，則應該停止增加節點數量。
該演算法組件支援的資料量大小？
建議向量維度小於200。