ガウス混合モデル (GMM) は、完全な母集団内のK個のガウス亜母集団を表すのに役立つ確率モデルです。 GMMトレーニングコンポーネントを使用してモデルを分類できます。 このトピックでは、GMMトレーニングコンポーネントを設定する方法について説明します。
制限事項
MaxCompute、Realtime Compute for Apache Flink、またはPlatform for AI (PAI) のディープラーニングコンテナ (DLC) のいずれかのコンピューティングリソースにのみ基づいて、リッジ回帰トレーニングコンポーネントを使用できます。
PAIコンソールでコンポーネントを設定する
AI (PAI) コンソールでGMMトレーニングコンポーネントのパラメーターを設定できます。
タブ | パラメーター | 説明 |
フィールド設定 | vectorCol | ベクトル列の名前。 |
パラメーター設定 | イプシロン | 収束しきい値。 2回の反復で生成された2つのコアポイント間の距離がこのパラメーターに指定された値未満の場合、アルゴリズムは収束します。 デフォルト値: 1.0Eから4。 |
k | ガウシアンの数。 デフォルト値:2 | |
maxIter | 反復の最大数。 デフォルト値:100 | |
randomSeed | メソッドに与えられたランダムシード。 デフォルト値:0 | |
実行チューニング | 数の労働者 | 労働者の数。 このパラメーターは、Memory per worker, unit MBパラメーターと一緒に使用する必要があります。 このパラメーターの値は正の整数でなければなりません。 有効な値: [1,9999] 。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
ワーカあたりのメモリ、単位MB | 各ワーカーのメモリサイズ。 有効値: 1024〜64 × 1024。 単位:MB。 詳細については、このトピックの「付録: リソース使用量の見積もり方法」を参照してください。 |
付録: リソース使用量の見積もり方法
リソース使用量の見積もりについては、次のセクションを参照してください。
各ワーカーに適したメモリサイズを見積もるにはどうすればよいですか?
ガウス分布数をK、ベクトル次元数をMとすると、各ワーカーの適切なメモリサイズは、M × M × K × 8 × 2 × 12/1024/1024 (単位: MB) の式を用いて計算することができる。 ほとんどの場合、各ワーカーのメモリサイズは8 GBに設定されています。
私はいかに適切な労働者の量を推定しますか。
入力データサイズに基づいてワーカーの数を設定することを推奨します。 たとえば、入力データサイズがX GBの場合、5 × Xワーカーを使用することを推奨します。 リソースが不足している場合は、ワーカーの数を減らすことができます。 労働者の数が多いほど、労働者間コミュニケーションのオーバーヘッドが高くなります。 したがって、ノードの数を増やすと、分散トレーニングタスクは最初に高速化しますが、特定の数のワーカーの後は遅くなります。 このパラメーターを調整して最適な数値を見つけることができます。
アルゴリズムでサポートできる最大データ量を推定するにはどうすればよいですか?
ベクトルの次元数を200未満に設定することを推奨します。