すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:マシン読み取り理解予測

最終更新日:Jul 22, 2024

Platform for AI (PAI) の機械読み取り理解予測コンポーネントを使用すると、機械読み取り理解トレーニングコンポーネントによってトレーニングされたモデルを使用してバッチ予測を行うことができます。 このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。

制限事項

Deep Learning Containers (DLC) リソースに基づいた機械読み取り理解予測コンポーネントを使用できます。

Machine Learning Designerでのコンポーネントの設定

  • 入力ポート

    入力ポート

    データ型

    推奨上流コンポーネント

    必須

    入力によって救われるモデル

    OSS

    機械読書理解トレーニング

    予測のためのデータ

    OSS

    ファイルデータの読み取り

  • コンポーネントパラメータ

    Machine Learning Designerのパイプラインページでコンポーネントを設定します。 下表に、各パラメーターを説明します。

    タブ

    パラメーター

    説明

    フィールド設定

    Language

    入力ファイルの言語。 デフォルト値: zh。 有効な値:

    • zh

    • en

    入力スキーマ

    入力ファイルの各列のデータスキーマ。 複数の列はコンマ (,) で区切ります。 デフォルト値: qas_id:str:1、context_text:str:1、question_text:str:1、answer_text:str:1、start_position_character:str:1、title:str:1。

    質問列

    入力ファイル内の質問を含む列の名前。 デフォルト値: question_text

    コンテキスト列

    入力ファイル内のテキストパッセージを含む列の名前。 デフォルト値: context_text。

    回答列

    入力ファイルの回答を含む列の名前。 デフォルト値: answer_text。

    Id列

    入力ファイルのID列の名前。 デフォルト値: qas_id。

    開始位置列

    入力ファイル内の応答スパンの開始位置を含む列の名前。 質問に対する回答がテキストパッセージで見つかる場合、回答範囲の開始位置がこの列に記録されます。 デフォルト値: start_position_character。

    出力データファイル

    このコンポーネントで使用される回答ファイルを格納するObject Storage Service (OSS) バケットのパス。

    ユーザー定義モデルの使用

    カスタムモデルを使用するかどうかを指定します。 デフォルト値: no。 有効な値:

    • no

    • yes

    AlinkモデルのOSSディレクトリ

    このパラメーターは、[ユーザー定義モデルの使用] パラメーターをyesに設定した場合にのみ必要です。

    カスタムモデルを格納するOSSバケットのパス。

    パラメーター設定

    batchSize

    同時に処理するサンプルの数。 モデルが複数のGPUを使用する複数のサーバーでトレーニングされている場合、このパラメーターには、各GPUで同時に処理されるサンプルの数を指定します。 値はINT型でなければなりません。 デフォルト値: 256

    シーケンス長

    処理できるテキストパッセージの最大長。 値はINT型でなければなりません。 デフォルト値: 384

    最大クエリ長

    処理できる質問の最大長。 値はINT型でなければなりません。 デフォルト値: 64。

    Max Answer Length

    処理できる回答の最大長。 値はINT型でなければなりません。 デフォルト値:30。

    ドクストライド

    各スライスされたテキストパッセージのスライドウィンドウの長さ。 値はINT型でなければなりません。 デフォルト値: 128

    pretrainModelNameOrPath

    システムによって提供される事前トレーニング済みモデルの名前またはパス。 デフォルト値: hfl/macbert-base-zh。 有効な値:

    • ユーザー定義

    • hfl/macbert-base-zh

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    追加パラメータ

    カスタムパラメーター。 データに基づいてモデルパラメータを微調整できます。

    形式: {A: xxx, B: xxx} キーと値はコロン (:) で区切ります。 複数のパラメーターはコンマ (,) で区切ります。

    チューニング

    GPUマシンタイプ

    使用するGPUアクセラレーションノードのインスタンスタイプ。 デフォルト値はgn5-c8g1.2xlargeです。これは、ノードが8 vCPU、80 GBメモリ、および単一のP100 GPUを使用することを示します。

    num_GPU_ワーカー

    各ワーカーのGPUの数。 デフォルト値は 1 です。

次の図は、マシン読み取り理解予測コンポーネントが使用されるサンプルパイプラインを示しています。image

コンポーネントを設定するには、次の手順を実行します。

  1. 予測データセットを準備し、OSSバケットにアップロードします。 詳細については、OSSコンソールを使用して開始するトピックの「オブジェクトのアップロード」セクションをご参照ください。

    データセットは、TSVまたはTEXT形式にすることができ、次の列を含みます: ID列、テキスト列、質問列、回答列 (オプション) 、開始位置列 (オプション) 、およびタイトル列 (オプション) 。

    この例では、TSVファイルを使用してモデルをトレーニングする方法を示します。

  2. [ファイルデータの読み取り]-3コンポーネントを使用して、予測データセットを読み取ります。 [ファイルデータの読み取り] コンポーネントの [OSSデータパス] パラメーターを、予測データセットが保存されているOSSパスに設定します。

  3. [Read File Data-3] コンポーネントを上流ノードとしてマシン読み取り理解予測コンポーネントに接続し、マシン読み取り理解予測コンポーネントを設定します。 詳細については、このトピックの「コンポーネントパラメーター」を参照してください。

関連ドキュメント