すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:テキストの要約

最終更新日:Jul 22, 2024

テキスト要約は、長く繰り返しのテキストから重要な情報を抽出するプロセスです。 例えば、見出しはテキスト要約の結果である。 Platform for AI (PAI) のテキスト要約トレーニングコンポーネントを使用して、ニュースの主なポイントを要約した見出しを生成するモデルをトレーニングできます。 このトピックでは、テキスト要約トレーニングコンポーネントを設定する方法について説明します。

制限事項

テキスト要約トレーニングコンポーネントは、ディープラーニングコンテナ (DLC) コンピューティングリソースのみを使用できます。

モデルアーキテクチャ

このモデルは、エンコーダとデコーダを含む標準のTransformerアーキテクチャを使用しています。 エンコーダはテキストを符号化し、デコーダはテキストを復号する。 トレーニング中、入力は元のニュースであり、出力は見出しです。

使用上の注意

テキスト要約トレーニングコンポーネントの入力ポートを文分割コンポーネントに接続すると、テキストを行に分割できます。

PAIコンソールでコンポーネントを設定する

Machine Learning Designerで、テキスト要約トレーニングコンポーネントのパラメーターを設定できます。

  • 入力ポート

    入力ポート (左から右へ)

    データ型

    推奨上流コンポーネント

    必須

    トレーニングデータ

    OSS

    ファイルデータの読み取り

    検証データ

    OSS

    ファイルデータの読み取り

  • コンポーネントパラメータ

    タブ

    パラメーター

    説明

    フィールド設定

    入力スキーマ

    入力ファイルのテキスト列。 デフォルト値: title_tokens:str:1,content_tokens:str:1

    TextColumn

    入力テーブルの元のテキストに対応する列の名前。 デフォルト値: content_tokens

    SummaryColumn

    入力テーブルのサマリーに対応する列の名前。 デフォルト値: title_tokens

    AlinkモデルのOSSディレクトリ

    生成されたテキスト要約モデルをObject Storage Service (OSS) バケットに格納するために使用されるディレクトリ。

    パラメーター設定

    事前トレーニング済みモデル

    事前トレーニング済みモデルの名前。 [パラメータ設定] タブでモデルを選択できます。 デフォルト値: alibaba-pai/mt5-title-generation-zh

    batchSize

    バッチごとに処理されるサンプルの数。 値はINT型でなければなりません。 デフォルト値: 8。

    モデルが複数のGPUを持つ複数のサーバーでトレーニングされている場合、このパラメーターは、バッチ内の各GPUによって処理されるサンプルの数を示します。

    sequenceLength

    システムで処理できるシーケンスの最大長。 値はINT型でなければなりません。 有効な値: 1 ~ 512 デフォルト値: 512

    numEpochs

    モデルトレーニングのエポック数。 値はINT型でなければなりません。 デフォルト値: 3。

    LearningRate

    モデルトレーニング中の学習率。 値はFLOAT型でなければなりません。 デフォルト値: 3e-5。

    チェックポイントステップの保存

    システムがモデルを評価し、最適なモデルを保存する前に実行されるステップの数。 デフォルト値: 150

    モデル言語

    有効な値:

    • zh: 中国語

    • en:英語

    デコード中に入力からテキストをコピーするかどうか

    入力テーブルから出力テーブルにテキストをコピーするかどうかを指定します。 有効な値:

    • false (デフォルト): いいえ

    • true:インストールします。

    予測シーケンスの最小長さ

    出力テキストの最小長。INT型です。 デフォルト値: 12。

    予測シーケンスの最大長

    出力テキストの最大長 (INT型) 。 デフォルト値: 32。

    最小非反復Nグラムサイズ

    繰り返されないn-gram句の最小サイズ。INTタイプです。 デフォルト値:2 たとえば、パラメーターを1に設定した場合、出力テキストには「天天」などの文字列は含まれません。

    ビーム検索スコープの数

    ビーム検索を使用して、INTタイプの最良の候補シーケンスを選択する場合の検索範囲。 既定値:5 値が大きいほど検索時間が長いことを示す。

    返される候補シーケンスの数

    モデルによって返される最上位の候補シーケンスの数 (INTタイプ) 。 既定値:5

    実行チューニング

    GPUマシンタイプ

    コンピューティングリソースのGPU高速化インスタンスタイプ。 デフォルト値: gn5-c8g1.2xlarge

  • 出力ポート

    出力ポート

    データ型

    推奨下流コンポーネント

    必須

    出力モデル

    出力モデルのOSSパス。 このパラメーターの値は、[フィールドの設定] タブで設定したModelSavePathパラメーターの値と同じです。 SavedModel形式の出力モデルは、このOSSパスに格納されます。

    テキスト要約予測コンポーネントの使用

    不可

次の図は、テキスト要約トレーニングコンポーネントが使用されるサンプルのワークフローを示しています。 工作流この例では、コンポーネントが設定され、パイプラインが次の方法で実行されます。

  1. トレーニングデータセット (cn_train.txt) と評価データセット (cn_dev.txt) を準備し、OSSバケットにアップロードします。 この例で使用されるトレーニングデータセットと検証データセットは、タブで区切られたTXTファイルです。

    MaxComputeクライアントでTunnelコマンドを実行して、CSVファイルをMaxComputeにアップロードすることもできます。 MaxComputeクライアントをインストールおよび設定する方法の詳細については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 Tunnelコマンドの詳細については、「Tunnelコマンド」をご参照ください。

  2. [Read File Data - 1] および [Read File Data - 2] コンポーネントを使用して、トレーニングデータセットと評価データセットを読み取ります。 [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターを、トレーニングデータセットと評価データセットが保存されているOSSパスに設定します。

  3. トレーニングデータセットと評価データセットをテキスト要約トレーニング-1コンポーネントの入力ファイルとして設定し、その他のパラメーターを設定します。 詳細については、このトピックの「PAIコンソールでコンポーネントを構成する」セクションを参照してください。

  4. クリックしimage.pngてパイプラインを実行します。 パイプラインの実行後、Text Summarization Training-1ModelSavePathパラメーターで指定されたOSSパスで出力を表示できます。

関連ドキュメント

  • テキスト要約予測コンポーネントの設定方法の詳細については、「テキスト要約予測」をご参照ください。