全部產品
Search
文件中心

Platform For AI:句子拆分

更新時間:Jul 13, 2024

本文為您介紹Designer提供的句子拆分演算法組件。

將一段文本按標點進行句子拆分。該組件主要用於文本摘要前的預先處理,將一段文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式,配置句子拆分組件參數。

方式一:可視化方式

Designer工作流程頁面配置組件參數。

頁簽

參數

描述

欄位設定

標識文章ID的列名

輸入標識文章ID的列名

標示文章內容的列名

輸入標示文章內容的列名

句子的佔空間字元集合

預設“。!?”

執行調優

核心數

預設自動分配

每個核心的內容

預設自動分配

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

參數名稱

是否必選

描述

預設值

inputTableName

輸入表名

inputTablePartitions

輸入表中指定參與計算的分區

輸入表的所有分區

outputTableName

輸出表名

docIdCol

標識文章ID的列名

docContent

標識文章內容的列名,僅可指定一列。

delimiter

句子的佔空間字元集合

“。!?”

lifecycle

輸入出表的生命週期

coreNum

參與計算的核心數

系統自動計算

memSizePerCore

每個核心需要的記憶體

系統自動計算

樣本

輸出表為兩列,分別是doc_id和sentence。

doc_id

sentence

1000894

早在2008年,上交所便發布了上市公司社會責任披露相關指引,強制要求三類公司披露社會責任報告,同時鼓勵其他有條件的上市公司進行自願披露。

1000894

統計顯示,2012年,滬市上市公司共計379家披露社會責任報告,包括強制披露公司305家和自願披露公司74家,合計占滬市全部上市公司的40%。