テキスト要約コンポーネントは、TextRankモデルに基づいてアブストラクトを自動的に生成できます。 要約は、文書の主なアイデアを正確に反映するシンプルで一貫性のある短いテキストです。 このコンポーネントにより、コンピュータはドキュメントから要約を抽出できます。 このトピックでは、Platform for AI (PAI) が提供するテキスト要約コンポーネントを設定する方法について説明します。
制限事項
MaxComputeのコンピューティングリソースのみに基づいて、テキスト要約コンポーネントを使用できます。
使用上の注意
文分割コンポーネントを上流コンポーネントとして使用して、テキストを行に分割できます。 各行には1つの文しか含まれていません。
コンポーネントの設定
次のいずれかの方法を使用して、テキスト要約コンポーネントを設定できます。
方法1: PAIコンソールでコンポーネントを設定する
Machine Learning Designerでテキスト要約コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | マーク付きドキュメントIDの列 | ドキュメントID列の名前。 |
文列 | 文の列。 指定できる列は1つだけです。 | |
パラメーター設定 | 出力最初のNキー文 | 取得したい上位N個のキー文。 デフォルト値: 3。 |
文の類似度の計算方法 | 文の類似性を計算するために使用される方法。 有効な値:
| |
マッチング文字列の重み | 一致した文字列の重み。 このパラメーターは、文類似度計算方法パラメーターをsskに設定した場合にのみ有効になります。 デフォルト値: 0.5 | |
サブ文字列の長さ | 部分文字列の長さ。 このパラメーターは、文類似度計算方法パラメーターをsskまたはCosineに設定した場合にのみ有効になります。 デフォルト値:2 | |
ダンピング係数 | ダンピング係数。 デフォルト値: 0.85 | |
最大イテレーション | 反復の最大数。 デフォルト値:100 | |
収束係数 | 収束係数。 デフォルト値: 0.000001 | |
チューニング | コア数 | 計算に使用されるコアの数。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用してコンポーネントを構成する
SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。 下表に、各パラメーターを説明します。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | N/A |
inputTablePartitions | 不可 | 計算のために入力テーブルから選択されたパーティション。 | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | N/A |
docIdCol | 可 | ドキュメントID列の名前。 | N/A |
sentenceCol | 可 | 文の列。 指定できる列は1つだけです。 | N/A |
topN | 不可 | 取得したい上位N個のキー文。 | 3 |
similarityType | 不可 | 文の類似性を計算するために使用される方法。 有効な値:
| lcs_sim |
ラムダ | 不可 | 一致した文字列の重み。 このパラメーターは、similarityTypeパラメーターをsskに設定した場合にのみ有効です。 | 0.5 |
k | 不可 | 部分文字列の長さ。 このパラメーターは、similarityTypeパラメーターをsskまたはcosineに設定した場合にのみ有効です。 | 2 |
dampingFactor | 不可 | ダンピング係数。 | 0.85 |
maxIter | 不可 | 反復の最大数。 | 100 |
イプシロン | 不可 | 収束係数。 | 0.000001 |
ライフサイクル | 不可 | 入力テーブルと出力テーブルのライフサイクル。 | N/A |
coreNum | 不可 | 計算に使用されるコアの数。 | 自動割り当て |
memSizePerCore | 不可 | 各コアのメモリサイズ。 | 自動割り当て |
例
入力テーブルtest_inputを準備します。 次のセクションでは、例を示します。
MaxComputeクライアントを使用してテーブルを作成し、Tunnelコマンドを使用してデータをアップロードできます。 MaxComputeクライアントのインストール方法と設定方法については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 Tunnelコマンドの詳細については、「Tunnelコマンド」をご参照ください。
doc_id
文
1000897
Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。 この問題は公衆衛生の安全に大きなリスクをもたらし、社会に広範な懸念を引き起こします。 全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。 野生動物に関連する違法行為を取り締まる過程で、法執行部門は、野生動物の大量消費、密猟の莫大な利益、識別の難しさと高コストが野生動物の密猟の持続の重要な理由であることに気づきました。
パラメーター:
doc_id: トピックID列。
sentence: 文の列。
文分割コンポーネントを使用して、文の列のテキストを行に分割します。 各ロールには1つの文のみが含まれます。 次の表に、test_outputという名前の出力テーブルの例を示します。 詳細については、「文分割」をご参照ください。
doc_id
文
1000897
Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。
1000897
この問題は公衆衛生の安全に大きなリスクをもたらし、社会に広範な懸念を引き起こします。
1000897
全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。
1000897
野生動物に関連する違法行為を取り締まる過程で、法執行部門は、野生動物の大量消費、密猟の莫大な利益、識別の難しさと高コストが野生動物の密猟の持続の重要な理由であることに気づきました。
次のPAIコマンドを実行して、テキストの概要を生成します。
SQLスクリプトまたはODPS SQLノードコンポーネントを使用して、次のPAIコマンドを実行できます。
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;
出力テーブルには、doc_id列とabstract列が含まれます。
doc_id
抽象
1000897
Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。 全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。
関連ドキュメント
文分割コンポーネントを使用して、テキストを行に分割します。 各ロールには1つの文のみが含まれます。 詳細については、「文分割」をご参照ください。
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。