本文為您介紹Designer提供的句子拆分演算法組件。
將一段文本按標點進行句子拆分。該組件主要用於文本摘要前的預先處理,將一段文本拆分成一句一行的形式。
組件配置
您可以使用以下任意一種方式,配置句子拆分組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 標識文章ID的列名 | 輸入標識文章ID的列名 |
標示文章內容的列名 | 輸入標示文章內容的列名 | |
句子的佔空間字元集合 | 預設“。!?” | |
執行調優 | 核心數 | 預設自動分配 |
每個核心的內容 | 預設自動分配 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表名 | 無 |
inputTablePartitions | 否 | 輸入表中指定參與計算的分區 | 輸入表的所有分區 |
outputTableName | 是 | 輸出表名 | 無 |
docIdCol | 是 | 標識文章ID的列名 | 無 |
docContent | 是 | 標識文章內容的列名,僅可指定一列。 | 無 |
delimiter | 否 | 句子的佔空間字元集合 | “。!?” |
lifecycle | 否 | 輸入出表的生命週期 | 無 |
coreNum | 否 | 參與計算的核心數 | 系統自動計算 |
memSizePerCore | 否 | 每個核心需要的記憶體 | 系統自動計算 |
樣本
輸出表為兩列,分別是doc_id和sentence。
doc_id | sentence |
1000894 | 早在2008年,上交所便發布了上市公司社會責任披露相關指引,強制要求三類公司披露社會責任報告,同時鼓勵其他有條件的上市公司進行自願披露。 |
1000894 | 統計顯示,2012年,滬市上市公司共計379家披露社會責任報告,包括強制披露公司305家和自願披露公司74家,合計占滬市全部上市公司的40%。 |