すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:文の分割

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Studioが提供する文分割コンポーネントについて説明します。

文書内のテキストは句読点で分割できます。 このコンポーネントは、テキストの要約前にテキストを処理するために使用されます。 テキストを行に分割します。 各行には1つの文しか含まれていません。

コンポーネントの設定

次のいずれかの方法を使用して、文分割コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

センテンス分割コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

マーク付きドキュメントIDの列

ドキュメントID列の名前。

マーク付きドキュメントコンテンツ列

ドキュメント列の名前。

文区切り文字セット

文を区切るために使用される区切り文字。 デフォルトの区切り文字は、ピリオド (.) 、感嘆符 (!) 、および疑問符 (?) です。

チューニング

コア

コアの数。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

不可

計算のために入力テーブルから選択されたパーティション。

すべてのパーティション

outputTableName

出力テーブルの名前。

デフォルト値なし

docIdCol

ドキュメントID列の名前。

デフォルト値なし

docContent

ドキュメントコンテンツ列の名前。 指定できる列は1つだけです。

デフォルト値なし

区切り文字

不可

文を区切るために使用される区切り文字。

期間 (.) 、感嘆符 (!) 、および疑問符 (?)

ライフサイクル

不可

入力テーブルと出力テーブルのライフサイクル。

デフォルト値なし

coreNum

不可

計算に使用されるコアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。

システムによって決定される

例:

出力テーブルには、doc_id列と文列が含まれます。

doc_id

1000894

2008年、上海証券取引所は、上場企業の企業社会的責任 (CSR) に関する開示ガイドラインを発表しました。 3種類の企業がCSRレポートの開示を促され、他の適格な上場企業は自主的にCSRレポートの開示を奨励されました。

1000894

2012年には、全上場企業の40% を占める合計379の上場企業がCSRレポートを公開しました。 これらの企業のうち、305社がCSRレポートの開示を義務付けられ、74社が自主的に開示したCSRレポートが義務付けられていました。