このトピックでは、Machine Learning Studioが提供する文分割コンポーネントについて説明します。
文書内のテキストは句読点で分割できます。 このコンポーネントは、テキストの要約前にテキストを処理するために使用されます。 テキストを行に分割します。 各行には1つの文しか含まれていません。
コンポーネントの設定
次のいずれかの方法を使用して、文分割コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
センテンス分割コンポーネントのパラメーターは、Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | マーク付きドキュメントIDの列 | ドキュメントID列の名前。 |
マーク付きドキュメントコンテンツ列 | ドキュメント列の名前。 | |
文区切り文字セット | 文を区切るために使用される区切り文字。 デフォルトの区切り文字は、ピリオド (.) 、感嘆符 (!) 、および疑問符 (?) です。 | |
チューニング | コア | コアの数。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | 計算のために入力テーブルから選択されたパーティション。 | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
docIdCol | 可 | ドキュメントID列の名前。 | デフォルト値なし |
docContent | 可 | ドキュメントコンテンツ列の名前。 指定できる列は1つだけです。 | デフォルト値なし |
区切り文字 | 不可 | 文を区切るために使用される区切り文字。 | 期間 (.) 、感嘆符 (!) 、および疑問符 (?) |
ライフサイクル | 不可 | 入力テーブルと出力テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 不可 | 計算に使用されるコアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 | システムによって決定される |
例:
出力テーブルには、doc_id列と文列が含まれます。
doc_id | 文 |
1000894 | 2008年、上海証券取引所は、上場企業の企業社会的責任 (CSR) に関する開示ガイドラインを発表しました。 3種類の企業がCSRレポートの開示を促され、他の適格な上場企業は自主的にCSRレポートの開示を奨励されました。 |
1000894 | 2012年には、全上場企業の40% を占める合計379の上場企業がCSRレポートを公開しました。 これらの企業のうち、305社がCSRレポートの開示を義務付けられ、74社が自主的に開示したCSRレポートが義務付けられていました。 |