テキスト要約は、長く繰り返しのテキストから重要な情報を抽出するプロセスです。 例えば、見出しはテキスト要約の結果である。 Platform for AI (PAI) のテキスト要約トレーニングコンポーネントを使用して、ニュースの主なポイントを要約した見出しを生成するモデルをトレーニングできます。 このトピックでは、テキスト要約トレーニングコンポーネントを設定する方法について説明します。
制限事項
テキスト要約トレーニングコンポーネントは、ディープラーニングコンテナ (DLC) コンピューティングリソースのみを使用できます。
モデルアーキテクチャ
このモデルは、エンコーダとデコーダを含む標準のTransformerアーキテクチャを使用しています。 エンコーダはテキストを符号化し、デコーダはテキストを復号する。 トレーニング中、入力は元のニュースであり、出力は見出しです。
使用上の注意
テキスト要約トレーニングコンポーネントの入力ポートを文分割コンポーネントに接続すると、テキストを行に分割できます。
PAIコンソールでコンポーネントを設定する
Machine Learning Designerで、テキスト要約トレーニングコンポーネントのパラメーターを設定できます。
入力ポート
入力ポート (左から右へ)
データ型
推奨上流コンポーネント
必須
トレーニングデータ
OSS
可
検証データ
OSS
可
コンポーネントパラメータ
タブ
パラメーター
説明
フィールド設定
入力スキーマ
入力ファイルのテキスト列。 デフォルト値: title_tokens:str:1,content_tokens:str:1
TextColumn
入力テーブルの元のテキストに対応する列の名前。 デフォルト値: content_tokens
SummaryColumn
入力テーブルのサマリーに対応する列の名前。 デフォルト値: title_tokens。
AlinkモデルのOSSディレクトリ
生成されたテキスト要約モデルをObject Storage Service (OSS) バケットに格納するために使用されるディレクトリ。
パラメーター設定
事前トレーニング済みモデル
事前トレーニング済みモデルの名前。 [パラメータ設定] タブでモデルを選択できます。 デフォルト値: alibaba-pai/mt5-title-generation-zh
batchSize
バッチごとに処理されるサンプルの数。 値はINT型でなければなりません。 デフォルト値: 8。
モデルが複数のGPUを持つ複数のサーバーでトレーニングされている場合、このパラメーターは、バッチ内の各GPUによって処理されるサンプルの数を示します。
sequenceLength
システムで処理できるシーケンスの最大長。 値はINT型でなければなりません。 有効な値: 1 ~ 512 デフォルト値: 512
numEpochs
モデルトレーニングのエポック数。 値はINT型でなければなりません。 デフォルト値: 3。
LearningRate
モデルトレーニング中の学習率。 値はFLOAT型でなければなりません。 デフォルト値: 3e-5。
チェックポイントステップの保存
システムがモデルを評価し、最適なモデルを保存する前に実行されるステップの数。 デフォルト値: 150
モデル言語
有効な値:
zh: 中国語
en:英語
デコード中に入力からテキストをコピーするかどうか
入力テーブルから出力テーブルにテキストをコピーするかどうかを指定します。 有効な値:
false (デフォルト): いいえ
true:インストールします。
予測シーケンスの最小長さ
出力テキストの最小長。INT型です。 デフォルト値: 12。
予測シーケンスの最大長
出力テキストの最大長 (INT型) 。 デフォルト値: 32。
最小非反復Nグラムサイズ
繰り返されないn-gram句の最小サイズ。INTタイプです。 デフォルト値:2 たとえば、パラメーターを1に設定した場合、出力テキストには「天天」などの文字列は含まれません。
ビーム検索スコープの数
ビーム検索を使用して、INTタイプの最良の候補シーケンスを選択する場合の検索範囲。 既定値:5 値が大きいほど検索時間が長いことを示す。
返される候補シーケンスの数
モデルによって返される最上位の候補シーケンスの数 (INTタイプ) 。 既定値:5
実行チューニング
GPUマシンタイプ
コンピューティングリソースのGPU高速化インスタンスタイプ。 デフォルト値: gn5-c8g1.2xlarge
出力ポート
出力ポート
データ型
推奨下流コンポーネント
必須
出力モデル
出力モデルのOSSパス。 このパラメーターの値は、[フィールドの設定] タブで設定したModelSavePathパラメーターの値と同じです。 SavedModel形式の出力モデルは、このOSSパスに格納されます。
不可
例
次の図は、テキスト要約トレーニングコンポーネントが使用されるサンプルのワークフローを示しています。 この例では、コンポーネントが設定され、パイプラインが次の方法で実行されます。
トレーニングデータセット (cn_train.txt) と評価データセット (cn_dev.txt) を準備し、OSSバケットにアップロードします。 この例で使用されるトレーニングデータセットと検証データセットは、タブで区切られたTXTファイルです。
MaxComputeクライアントでTunnelコマンドを実行して、CSVファイルをMaxComputeにアップロードすることもできます。 MaxComputeクライアントをインストールおよび設定する方法の詳細については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 Tunnelコマンドの詳細については、「Tunnelコマンド」をご参照ください。
[Read File Data - 1] および [Read File Data - 2] コンポーネントを使用して、トレーニングデータセットと評価データセットを読み取ります。 [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターを、トレーニングデータセットと評価データセットが保存されているOSSパスに設定します。
トレーニングデータセットと評価データセットをテキスト要約トレーニング-1コンポーネントの入力ファイルとして設定し、その他のパラメーターを設定します。 詳細については、このトピックの「PAIコンソールでコンポーネントを構成する」セクションを参照してください。
クリックしてパイプラインを実行します。 パイプラインの実行後、Text Summarization Training-1のModelSavePathパラメーターで指定されたOSSパスで出力を表示できます。
関連ドキュメント
テキスト要約予測コンポーネントの設定方法の詳細については、「テキスト要約予測」をご参照ください。