このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する非推奨のWordフィルターコンポーネントについて説明します。
非推奨のワードフィルタコンポーネントは、テキスト分析の前処理方法です。 このコンポーネントは、単語トークン化結果の「of」、「is」、「oops」などのノイズをフィルタリングするために使用されます。
コンポーネントの入力には、入力テーブルと非推奨の単語テーブルが含まれます。 入力テーブルには、除外する非推奨の単語が含まれています。 非推奨の単語テーブルには1つの列しかありません。 各行には非推奨の単語があります。
Machine Learning Platform for AI (PAI) コンソールまたはPAIコマンドを使用して、コンポーネントを設定できます。
コンポーネントの設定
次のいずれかの方法を使用して、非推奨Wordフィルターコンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、非推奨のWord Filterコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | フィルター対象の列 | フィルタリングする列。 複数の列はコンマ (,) で区切ります。 |
チューニング | コア | コアの数。 デフォルトでは、システムが値を決定します。 |
メモリサイズ | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name FilterNoise -project algo_public \
-DinputTableName="test_input" -DnoiseTableName="noise_input" \
-DoutputTableName="test_output" \
-DselectedColNames="words_seg1,words_seg2" \
-Dlifecycle=30
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | 入力テーブルのパーティションの名前。 | すべてのパーティション |
noiseTableName | 可 | 非推奨の単語テーブルの名前。 | デフォルト値なし |
noiseTablePartitions | 不可 | 非推奨の単語テーブルのパーティションの名前。 | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
selectedColNames | 可 | フィルタリングする列。 複数の列はコンマ (,) で区切ります。 | デフォルト値なし |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 値は正の整数でなければなりません。 | デフォルト値なし |
coreNum | 不可 | コンピューティングで使用されるコアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 | システムによって決定される |