すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:非推奨の単語フィルター

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供する非推奨のWordフィルターコンポーネントについて説明します。

非推奨のワードフィルタコンポーネントは、テキスト分析の前処理方法です。 このコンポーネントは、単語トークン化結果の「of」、「is」、「oops」などのノイズをフィルタリングするために使用されます。

コンポーネントの入力には、入力テーブルと非推奨の単語テーブルが含まれます。 入力テーブルには、除外する非推奨の単語が含まれています。 非推奨の単語テーブルには1つの列しかありません。 各行には非推奨の単語があります。

Machine Learning Platform for AI (PAI) コンソールまたはPAIコマンドを使用して、コンポーネントを設定できます。

コンポーネントの設定

次のいずれかの方法を使用して、非推奨Wordフィルターコンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、非推奨のWord Filterコンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

フィルター対象の列

フィルタリングする列。 複数の列はコンマ (,) で区切ります。

チューニング

コア

コアの数。 デフォルトでは、システムが値を決定します。

メモリサイズ

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name FilterNoise -project algo_public \
    -DinputTableName="test_input" -DnoiseTableName="noise_input" \
    -DoutputTableName="test_output" \
    -DselectedColNames="words_seg1,words_seg2" \
    -Dlifecycle=30

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

不可

入力テーブルのパーティションの名前。

すべてのパーティション

noiseTableName

非推奨の単語テーブルの名前。

デフォルト値なし

noiseTablePartitions

不可

非推奨の単語テーブルのパーティションの名前。

すべてのパーティション

outputTableName

出力テーブルの名前。

デフォルト値なし

selectedColNames

フィルタリングする列。 複数の列はコンマ (,) で区切ります。

デフォルト値なし

ライフサイクル

不可

出力テーブルのライフサイクル。 値は正の整数でなければなりません。

デフォルト値なし

coreNum

不可

コンピューティングで使用されるコアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。

システムによって決定される