全部產品
Search
文件中心

Platform For AI:停用詞過濾

更新時間:Jul 13, 2024

本文為您介紹Designer提供的停用詞過濾演算法組件。

停用詞過濾演算法組件是文本分析中的一個預先處理方法,用於過濾分詞結果中的雜訊(例如的、是或啊)。

停用詞過濾演算法組件的兩個輸入樁為輸入表和停用詞表。輸入表為需要過濾停用詞的表。停用詞表的格式為一列,每行對應一個停用詞。

Designer支援通過可視化或PAI命令方式,配置停用詞過濾演算法組件相關參數。

組件配置

您可以使用以下任意一種方式,配置停用詞過濾組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

待過濾列

指定待過濾的列,多列以英文逗號(,)分隔。

執行調優

核心數

預設為系統自動分配。

記憶體數

預設為系統自動分配。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name FilterNoise -project algo_public \
    -DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
    -DoutputTableName=”test_output” \
    -DselectedColNames=”words_seg1,words_seg2” \
    -Dlifecycle=30

參數名稱

是否必選

描述

預設值

inputTableName

輸入分詞表的名稱。

inputTablePartitions

輸入分詞表的分區名稱。

所有分區

noiseTableName

停用詞表的名稱。

noiseTablePartitions

停用詞表的分區名稱。

所有分區

outputTableName

輸出表的名稱。

selectedColNames

指定待過濾的列,多列以英文逗號(,)分隔。

lifecycle

輸出表的生命週期。取值範圍為正整數。

coreNum

計算的核心數。

系統自動分配

memSizePerCore

每個核心的記憶體數。

系統自動分配