すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:テキストの要約

最終更新日:Jul 22, 2024

テキスト要約コンポーネントは、TextRankモデルに基づいてアブストラクトを自動的に生成できます。 要約は、文書の主なアイデアを正確に反映するシンプルで一貫性のある短いテキストです。 このコンポーネントにより、コンピュータはドキュメントから要約を抽出できます。 このトピックでは、Platform for AI (PAI) が提供するテキスト要約コンポーネントを設定する方法について説明します。

制限事項

MaxComputeのコンピューティングリソースのみに基づいて、テキスト要約コンポーネントを使用できます。

使用上の注意

文分割コンポーネントを上流コンポーネントとして使用して、テキストを行に分割できます。 各行には1つの文しか含まれていません。

コンポーネントの設定

次のいずれかの方法を使用して、テキスト要約コンポーネントを設定できます。

方法1: PAIコンソールでコンポーネントを設定する

Machine Learning Designerでテキスト要約コンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

マーク付きドキュメントIDの列

ドキュメントID列の名前。

文列

文の列。 指定できる列は1つだけです。

パラメーター設定

出力最初のNキー文

取得したい上位N個のキー文。 デフォルト値: 3。

文の類似度の計算方法

文の類似性を計算するために使用される方法。 有効な値:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

マッチング文字列の重み

一致した文字列の重み。 このパラメーターは、文類似度計算方法パラメーターをsskに設定した場合にのみ有効になります。 デフォルト値: 0.5

サブ文字列の長さ

部分文字列の長さ。 このパラメーターは、文類似度計算方法パラメーターをsskまたはCosineに設定した場合にのみ有効になります。 デフォルト値:2

ダンピング係数

ダンピング係数。 デフォルト値: 0.85

最大イテレーション

反復の最大数。 デフォルト値:100

収束係数

収束係数。 デフォルト値: 0.000001

チューニング

コア数

計算に使用されるコアの数。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用してコンポーネントを構成する

SQLスクリプトを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。 下表に、各パラメーターを説明します。

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

N/A

inputTablePartitions

不可

計算のために入力テーブルから選択されたパーティション。

すべてのパーティション

outputTableName

出力テーブルの名前。

N/A

docIdCol

ドキュメントID列の名前。

N/A

sentenceCol

文の列。 指定できる列は1つだけです。

N/A

topN

不可

取得したい上位N個のキー文。

3

similarityType

不可

文の類似性を計算するために使用される方法。 有効な値:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

lcs_sim

ラムダ

不可

一致した文字列の重み。 このパラメーターは、similarityTypeパラメーターをsskに設定した場合にのみ有効です。

0.5

k

不可

部分文字列の長さ。 このパラメーターは、similarityTypeパラメーターをsskまたはcosineに設定した場合にのみ有効です。

2

dampingFactor

不可

ダンピング係数。

0.85

maxIter

不可

反復の最大数。

100

イプシロン

不可

収束係数。

0.000001

ライフサイクル

不可

入力テーブルと出力テーブルのライフサイクル。

N/A

coreNum

不可

計算に使用されるコアの数。

自動割り当て

memSizePerCore

不可

各コアのメモリサイズ。

自動割り当て

  1. 入力テーブルtest_inputを準備します。 次のセクションでは、例を示します。

    MaxComputeクライアントを使用してテーブルを作成し、Tunnelコマンドを使用してデータをアップロードできます。 MaxComputeクライアントのインストール方法と設定方法については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 Tunnelコマンドの詳細については、「Tunnelコマンド」をご参照ください。

    doc_id

    1000897

    Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。 この問題は公衆衛生の安全に大きなリスクをもたらし、社会に広範な懸念を引き起こします。 全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。 野生動物に関連する違法行為を取り締まる過程で、法執行部門は、野生動物の大量消費、密猟の莫大な利益、識別の難しさと高コストが野生動物の密猟の持続の重要な理由であることに気づきました。

    パラメーター:

    • doc_id: トピックID列。

    • sentence: 文の列。

  2. 文分割コンポーネントを使用して、文の列のテキストを行に分割します。 各ロールには1つの文のみが含まれます。 次の表に、test_outputという名前の出力テーブルの例を示します。 詳細については、「文分割」をご参照ください。

    doc_id

    1000897

    Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。

    1000897

    この問題は公衆衛生の安全に大きなリスクをもたらし、社会に広範な懸念を引き起こします。

    1000897

    全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。

    1000897

    野生動物に関連する違法行為を取り締まる過程で、法執行部門は、野生動物の大量消費、密猟の莫大な利益、識別の難しさと高コストが野生動物の密猟の持続の重要な理由であることに気づきました。

  3. 次のPAIコマンドを実行して、テキストの概要を生成します。

    SQLスクリプトまたはODPS SQLノードコンポーネントを使用して、次のPAIコマンドを実行できます。

    PAI -name TextSummarization
        -project algo_public
        -DinputTableName="test_output"
        -DoutputTableName="test_output1"
        -DdocIdCol="doc_id"
        -DsentenceCol="sentence"
        -DtopN=2
        -Dlifecycle=30;

    出力テーブルには、doc_id列とabstract列が含まれます。

    doc_id

    抽象

    1000897

    Covid-19のパンデミックの発生以来、野生動物の消費の問題が顕著になっています。 全国の公安、林業、および市場規制部門は、野生動物の違法な狩猟、販売、消費を取り締まるために関連する特別な行動を実行し、目覚ましい結果を達成しました。

関連ドキュメント

  • 文分割コンポーネントを使用して、テキストを行に分割します。 各ロールには1つの文のみが含まれます。 詳細については、「文分割」をご参照ください。

  • Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。