本文由簡體中文內容自動轉碼而成。阿里雲不保證此自動轉碼的準確性、完整性及時效性。本文内容請以簡體中文版本為準。

高斯混合模型訓練

更新時間:2024-07-12 21:06

高斯混合模型(Gaussian Mixture Model)表示在總體分布中包含K個高斯子分布的機率模型。您可以使用高斯混合模型訓練組件實現模型分類。本文為您介紹高斯混合模型訓練組件的配置方法。

使用限制

支援的計算引擎為MaxCompute、Flink或DLC。

可視化配置組件參數

Designer支援通過可視化的方式,配置組件參數。

頁簽

參數

描述

頁簽

參數

描述

欄位設定

向量列名

向量列對應的列名。

參數設定

收斂閾值

當兩輪迭代的中心點距離小於收斂閾值時,演算法收斂。預設為1.0E~4。

聚類中心點數量

聚類中心點的數量,預設為2。

最大迭代步數

最大迭代步數,預設為100。

隨機數種子

正整數,預設為0。

執行調優

節點個數

單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。具體配置方法,詳情請參見附錄:如何預估資源的使用量

單個節點記憶體大小,單位M

取值範圍為1024 MB~64*1024 MB,具體配置方法,詳情請參見附錄:如何預估資源的使用量

附錄:如何預估資源的使用量

您可以參考以下樣本,來預估資源的使用量。

  • 如何預估每個節點的記憶體大小?

    假設聚類中心點數量為K,輸入資料的向量維度為M,則每個節點需要配置的記憶體大小為:M × M × K × 8 × 2 ×12,即M × M × K × 8 × 2 × 12 ÷ 1024 ÷ 1024 MB。通常每個節點的記憶體配置為8 GB。

  • 如何預估節點的個數?

    建議按照輸入資料的大小配置。例如:輸入資料大小為X GB,則建議使用5X個節點。如果資源不足,可以適當降低節點數量。由於存在通訊開銷,隨著節點數量的增加,分布式訓練任務速度會先變快,後變慢。如果您觀測到訓練任務隨著節點數量增加之後,速度變慢,則應該停止增加節點數量。

  • 該演算法組件支援的資料量大小?

    建議向量維度小於200。

  • 本頁導讀 (1, M)
  • 使用限制
  • 可視化配置組件參數
  • 附錄:如何預估資源的使用量
文檔反饋
phone 聯絡我們

立即和Alibaba Cloud在線服務人員進行交談,獲取您想了解的產品信息以及最新折扣。

alicare alicarealicarealicare