Platform for AI (PAI) の機械読み取り理解予測コンポーネントを使用すると、機械読み取り理解トレーニングコンポーネントによってトレーニングされたモデルを使用してバッチ予測を行うことができます。 このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。
制限事項
Deep Learning Containers (DLC) リソースに基づいた機械読み取り理解予測コンポーネントを使用できます。
Machine Learning Designerでのコンポーネントの設定
入力ポート
入力ポート
データ型
推奨上流コンポーネント
必須
入力によって救われるモデル
OSS
可
予測のためのデータ
OSS
可
コンポーネントパラメータ
Machine Learning Designerのパイプラインページでコンポーネントを設定します。 下表に、各パラメーターを説明します。
タブ
パラメーター
説明
フィールド設定
Language
入力ファイルの言語。 デフォルト値: zh。 有効な値:
zh
en
入力スキーマ
入力ファイルの各列のデータスキーマ。 複数の列はコンマ (,) で区切ります。 デフォルト値: qas_id:str:1、context_text:str:1、question_text:str:1、answer_text:str:1、start_position_character:str:1、title:str:1。
質問列
入力ファイル内の質問を含む列の名前。 デフォルト値: question_text
コンテキスト列
入力ファイル内のテキストパッセージを含む列の名前。 デフォルト値: context_text。
回答列
入力ファイルの回答を含む列の名前。 デフォルト値: answer_text。
Id列
入力ファイルのID列の名前。 デフォルト値: qas_id。
開始位置列
入力ファイル内の応答スパンの開始位置を含む列の名前。 質問に対する回答がテキストパッセージで見つかる場合、回答範囲の開始位置がこの列に記録されます。 デフォルト値: start_position_character。
出力データファイル
このコンポーネントで使用される回答ファイルを格納するObject Storage Service (OSS) バケットのパス。
ユーザー定義モデルの使用
カスタムモデルを使用するかどうかを指定します。 デフォルト値: no。 有効な値:
no
yes
AlinkモデルのOSSディレクトリ
このパラメーターは、[ユーザー定義モデルの使用] パラメーターをyesに設定した場合にのみ必要です。
カスタムモデルを格納するOSSバケットのパス。
パラメーター設定
batchSize
同時に処理するサンプルの数。 モデルが複数のGPUを使用する複数のサーバーでトレーニングされている場合、このパラメーターには、各GPUで同時に処理されるサンプルの数を指定します。 値はINT型でなければなりません。 デフォルト値: 256
シーケンス長
処理できるテキストパッセージの最大長。 値はINT型でなければなりません。 デフォルト値: 384
最大クエリ長
処理できる質問の最大長。 値はINT型でなければなりません。 デフォルト値: 64。
Max Answer Length
処理できる回答の最大長。 値はINT型でなければなりません。 デフォルト値:30。
ドクストライド
各スライスされたテキストパッセージのスライドウィンドウの長さ。 値はINT型でなければなりません。 デフォルト値: 128
pretrainModelNameOrPath
システムによって提供される事前トレーニング済みモデルの名前またはパス。 デフォルト値: hfl/macbert-base-zh。 有効な値:
ユーザー定義
hfl/macbert-base-zh
hfl/macbert-large-zh
bert-base-uncased
bert-large-uncased
追加パラメータ
カスタムパラメーター。 データに基づいてモデルパラメータを微調整できます。
形式:
{A: xxx, B: xxx}
キーと値はコロン (:) で区切ります。 複数のパラメーターはコンマ (,) で区切ります。チューニング
GPUマシンタイプ
使用するGPUアクセラレーションノードのインスタンスタイプ。 デフォルト値はgn5-c8g1.2xlargeです。これは、ノードが8 vCPU、80 GBメモリ、および単一のP100 GPUを使用することを示します。
num_GPU_ワーカー
各ワーカーのGPUの数。 デフォルト値は 1 です。
例
次の図は、マシン読み取り理解予測コンポーネントが使用されるサンプルパイプラインを示しています。
コンポーネントを設定するには、次の手順を実行します。
予測データセットを準備し、OSSバケットにアップロードします。 詳細については、OSSコンソールを使用して開始するトピックの「オブジェクトのアップロード」セクションをご参照ください。
データセットは、TSVまたはTEXT形式にすることができ、次の列を含みます: ID列、テキスト列、質問列、回答列 (オプション) 、開始位置列 (オプション) 、およびタイトル列 (オプション) 。
この例では、TSVファイルを使用してモデルをトレーニングする方法を示します。
[ファイルデータの読み取り]-3コンポーネントを使用して、予測データセットを読み取ります。 [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターを、予測データセットが保存されているOSSパスに設定します。
[Read File Data-3] コンポーネントを上流ノードとしてマシン読み取り理解予測コンポーネントに接続し、マシン読み取り理解予測コンポーネントを設定します。 詳細については、このトピックの「コンポーネントパラメーター」を参照してください。
関連ドキュメント
マシンリーディングの理解予測コンポーネントは、マシンリーディングの理解トレーニングコンポーネントと一緒に使用できます。 詳細については、「機械読み取りの理解力トレーニング」をご参照ください。
Machine Learning Designerコンポーネントの詳細については、「Machine Learning Designerの概要」をご参照ください。
Machine Learning Designerは、さまざまなプリセットアルゴリズムコンポーネントを提供します。 実際のビジネスシナリオに基づいてデータを処理するコンポーネントを選択できます。 詳細については、「コンポーネントリファレンス: すべてのコンポーネントの概要」をご参照ください。