本文為您介紹Designer提供的停用詞過濾演算法組件。
停用詞過濾演算法組件是文本分析中的一個預先處理方法,用於過濾分詞結果中的雜訊(例如的、是或啊)。
停用詞過濾演算法組件的兩個輸入樁為輸入表和停用詞表。輸入表為需要過濾停用詞的表。停用詞表的格式為一列,每行對應一個停用詞。
Designer支援通過可視化或PAI命令方式,配置停用詞過濾演算法組件相關參數。
組件配置
您可以使用以下任意一種方式,配置停用詞過濾組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 待過濾列 | 指定待過濾的列,多列以英文逗號(,)分隔。 |
執行調優 | 核心數 | 預設為系統自動分配。 |
記憶體數 | 預設為系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name FilterNoise -project algo_public \
-DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
-DoutputTableName=”test_output” \
-DselectedColNames=”words_seg1,words_seg2” \
-Dlifecycle=30
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入分詞表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入分詞表的分區名稱。 | 所有分區 |
noiseTableName | 是 | 停用詞表的名稱。 | 無 |
noiseTablePartitions | 否 | 停用詞表的分區名稱。 | 所有分區 |
outputTableName | 是 | 輸出表的名稱。 | 無 |
selectedColNames | 是 | 指定待過濾的列,多列以英文逗號(,)分隔。 | 無 |
lifecycle | 否 | 輸出表的生命週期。取值範圍為正整數。 | 無 |
coreNum | 否 | 計算的核心數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的記憶體數。 | 系統自動分配 |