すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:GMMトレーニング

最終更新日:Jul 22, 2024

ガウス混合モデル (GMM) は、完全な母集団内のK個のガウス亜母集団を表すのに役立つ確率モデルです。 GMMトレーニングコンポーネントを使用してモデルを分類できます。 このトピックでは、GMMトレーニングコンポーネントを設定する方法について説明します。

制限事項

MaxCompute、Realtime Compute for Apache Flink、またはPlatform for AI (PAI) のディープラーニングコンテナ (DLC) のいずれかのコンピューティングリソースにのみ基づいて、リッジ回帰トレーニングコンポーネントを使用できます。

PAIコンソールでコンポーネントを設定する

AI (PAI) コンソールでGMMトレーニングコンポーネントのパラメーターを設定できます。

タブ

パラメーター

説明

フィールド設定

vectorCol

ベクトル列の名前。

パラメーター設定

イプシロン

収束しきい値。 2回の反復で生成された2つのコアポイント間の距離がこのパラメーターに指定された値未満の場合、アルゴリズムは収束します。 デフォルト値: 1.0Eから4。

k

ガウシアンの数。 デフォルト値:2

maxIter

反復の最大数。 デフォルト値:100

randomSeed

メソッドに与えられたランダムシード。 デフォルト値:0

実行チューニング

数の労働者

労働者の数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。

ワーカあたりのメモリ、単位MB

各ワーカーのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。

付録: リソース使用量の見積もり方法

リソース使用量の見積もりについては、次のセクションを参照してください。

  • 各ワーカーに適したメモリサイズを見積もるにはどうすればよいですか?

    ガウス分布数をK、ベクトル次元数をMとすると、各ワーカーの適切なメモリサイズは、M × M × K × 8 × 2 × 12/1024/1024 (単位: MB) の式を用いて計算することができる。 ほとんどの場合、各ワーカーのメモリサイズは8 GBに設定されています。

  • 私はいかに適切な労働者の量を推定しますか。

    入力データサイズに基づいてワーカーの数を設定することを推奨します。 たとえば、入力データサイズがX GBの場合、5 × Xワーカーを使用することを推奨します。 リソースが不足している場合は、ワーカーの数を減らすことができます。 労働者の数が多いほど、労働者間コミュニケーションのオーバーヘッドが高くなります。 したがって、ノードの数を増やすと、分散トレーニングタスクは最初に高速化しますが、特定の数のワーカーの後は遅くなります。 このパラメーターを調整して最適な数値を見つけることができます。

  • アルゴリズムでサポートできる最大データ量を推定するにはどうすればよいですか?

    ベクトルの次元数を200未満に設定することを推奨します。