全部產品
Search
文件中心

Platform For AI:高斯混合模型訓練

更新時間:Jul 13, 2024

高斯混合模型(Gaussian Mixture Model)表示在總體分布中包含K個高斯子分布的機率模型。您可以使用高斯混合模型訓練組件實現模型分類。本文為您介紹高斯混合模型訓練組件的配置方法。

使用限制

支援的計算引擎為MaxCompute、Flink或DLC。

可視化配置組件參數

Designer支援通過可視化的方式,配置組件參數。

頁簽

參數

描述

欄位設定

向量列名

向量列對應的列名。

參數設定

收斂閾值

當兩輪迭代的中心點距離小於收斂閾值時,演算法收斂。預設為1.0E~4。

聚類中心點數量

聚類中心點的數量,預設為2。

最大迭代步數

最大迭代步數,預設為100。

隨機數種子

正整數,預設為0。

執行調優

節點個數

單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。具體配置方法,詳情請參見附錄:如何預估資源的使用量

單個節點記憶體大小,單位M

取值範圍為1024 MB~64*1024 MB,具體配置方法,詳情請參見附錄:如何預估資源的使用量

附錄:如何預估資源的使用量

您可以參考以下樣本,來預估資源的使用量。

  • 如何預估每個節點的記憶體大小?

    假設聚類中心點數量為K,輸入資料的向量維度為M,則每個節點需要配置的記憶體大小為:M × M × K × 8 × 2 ×12,即M × M × K × 8 × 2 × 12 ÷ 1024 ÷ 1024 MB。通常每個節點的記憶體配置為8 GB。

  • 如何預估節點的個數?

    建議按照輸入資料的大小配置。例如:輸入資料大小為X GB,則建議使用5X個節點。如果資源不足,可以適當降低節點數量。由於存在通訊開銷,隨著節點數量的增加,分布式訓練任務速度會先變快,後變慢。如果您觀測到訓練任務隨著節點數量增加之後,速度變慢,則應該停止增加節點數量。

  • 該演算法組件支援的資料量大小?

    建議向量維度小於200。