Platform for AI (PAI) が提供するテキスト要約予測コンポーネントを使用して、事前にトレーニングされたテキスト要約モデルをテストし、モデルのパフォーマンスを評価できます。 このトピックでは、Text Summarization Predictコンポーネントを設定する方法について説明します。
前提条件
OSSが有効化され、Machine Learning StudioはOSSへのアクセスが許可されています。 詳細については、「OSSの有効化」および「Machine Learning Designerの使用に必要な権限の付与」をご参照ください。
制限事項
テキスト要約トレーニングコンポーネントは、ディープラーニングコンテナ (DLC) コンピューティングリソースのみを使用できます。
PAIコンソールでコンポーネントを設定する
Machine Learning DesignerでText Summarization Predictコンポーネントのパラメーターを設定できます。
入力ポート
入力ポート (左から右へ)
データ型
推奨上流コンポーネント
必須
予測用データ
OSS
可
予測モデル
コンポーネント出力
不可
コンポーネントの設定
タブ
パラメーター
説明
フィールド設定
入力スキーマ
入力テーブルのテキスト列。 デフォルト値: target:str:1,source:str:1
TextColumn
入力テーブルのソーステキストを格納する列の名前。 デフォルト値: source。
AppendColumn
入力テーブルから出力テーブルに追加されるテキスト列の名前。 複数の列名はコンマ (,) で区切ります。 デフォルト値: source。
出力スキーマ
出力テーブルのテキスト要約結果を格納する列の名前。 デフォルト値: predictions,beams
出力データファイル
Object Storage Service (OSS) バケット内の出力テーブルのパス。
ユーザー定義モデルの使用
PAIのデフォルトモデルを使用して予測を実行するかどうかを指定します。 有効な値:
はい
no (デフォルト)
かどうかモデルはメガトロン1
mgのプレフィックスが付いた事前トレーニング済みテキスト要約モデルのみがサポートされています。 有効な値:
はい
no (デフォルト)
AlinkモデルのOSSディレクトリ
このパラメーターは、[ユーザー定義モデルの使用] パラメーターをyesに設定した場合にのみ必要です。
OSSバケット内のカスタムモデルのパス。
パラメーター設定
batchSize
一度に処理されるサンプルの数。 値はINT型でなければなりません。 デフォルト値: 8。
モデルが複数のGPUを持つ複数のサーバーでトレーニングされている場合、このパラメーターは一度に各GPUで処理されるサンプルの数を示します。
sequenceLength
シーケンスの最大長。 値はINT型でなければなりません。 有効な値: 1 ~ 512 デフォルト値: 512
モデル言語
使用される言語。 有効な値:
zh: 中国語
en:英語
デコード中に入力からテキストをコピーするかどうか
テキストをコピーするかどうかを指定します。 有効な値:
false (デフォルト)
true
予測シーケンスの最小長さ
出力テキストの最小長。INT型です。 デフォルト値: 12。 モデルによって出力されるテキストは、指定された値より長くなければなりません。
予測シーケンスの最大長
出力テキストの最大長 (INT型) 。 デフォルト値: 32。 モデルによって出力されるテキストは、指定された値より短くなければなりません。
最小非反復Nグラムサイズ
繰り返されないn-gram句の最小サイズ。INTタイプです。 デフォルト値:2
ビーム検索スコープの数
ビーム検索スコープ。INTタイプです。 既定値:5
返される候補シーケンスの数
返される結果の数。INT型です。 既定値:5
重要このパラメーターは、the Number of Beam Search Scopeの値に設定する必要があります。
実行チューニング
GPUマシンタイプ
コンピューティングリソースのGPU高速化インスタンスタイプ。 デフォルト値: gn5-c8g1.2xlarge
例
Text Summarization Predictコンポーネントを使用して、次のいずれかの方法を使用してパイプラインを構築できます。
方法1: テキスト要約コンポーネントを使用してトレーニングされたモデルを微調整します。
方法2: カスタムモデルを使用します。
この例では、次の操作を実行してコンポーネントを構成し、パイプラインを実行します。
テキスト要約パイプラインを構築する手順に基づいてパイプラインを構築します。 詳細については、「テキスト要約トレーニングコンポーネントの使用」トピックの「例」をご参照ください。
サマリーを生成するデータセット (predict_data.txt) を準備し、そのデータセットをOSSバケットにアップロードします。 この例で使用されるテストデータセットは、タブで区切られたTXTファイルです。
MaxComputeクライアントでTunnelコマンドを実行して、CSVファイルをMaxComputeにアップロードすることもできます。 MaxComputeクライアントをインストールおよび設定する方法の詳細については、「MaxComputeクライアント (odpscmd) 」をご参照ください。 Tunnelコマンドの詳細については、「Tunnelコマンド」をご参照ください。
テストデータセットを読み取るには、方法1の [ファイルデータの読み取り]-3コンポーネントまたは方法2の [ファイルデータの読み取り]-1コンポーネントを使用します。 [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターを、テストデータセットが保存されているOSSパスに設定します。
モデルファイルとテストデータセットをText Summarization Predictコンポーネントに接続し、必要なパラメーターを設定します。 詳細については、「PAIコンソールでのコンポーネントの設定」をご参照ください。
テキスト要約コンポーネントで微調整されたモデルを使用する場合は、テキスト要約コンポーネントの出力をテキスト要約予測コンポーネントの入力として設定します。
カスタムモデルを使用する場合は、[フィールドの設定] タブで [ユーザー定義モデルの使用] パラメーターをyesに設定し、ModelSavePathパラメーターをモデルが保存されているOSSパスに設定します。
クリックしてパイプラインを実行します。 パイプラインの実行後、テキスト要約予測コンポーネントの [出力データファイル] パラメーターで設定したOSSパスの出力を表示できます。
関連ドキュメント
テキストサマリートレーニングコンポーネントの設定方法の詳細については、「テキストサマリートレーニングコンポーネントの使用」をご参照ください。