すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:マシン読み取り理解トレーニング

最終更新日:Jul 22, 2024

Platform for AI (PAI) が提供する機械読書理解トレーニングコンポーネントは、特定のテキストパッセージを読んで理解し、関連する質問に答えるために、機械読書理解 (MRC) モデルを訓練します。 トレーニング済みモデルを使用して、テキストベースのインテリジェント会話を実装できます。 このトピックでは、コンポーネントの設定方法と、コンポーネントの使用方法の例について説明します。

制限事項

Deep Learning Containers (DLC) のコンピューティングリソースのみに基づいて、マシンリーディングの理解力トレーニングコンポーネントを使用できます。

Machine Learning Designerでのコンポーネントの設定

  • 入力ポート

    入力ポート (左から右へ)

    データ型

    推奨上流コンポーネント

    必須

    トレーニングデータ

    OSS

    ファイルデータの読み取り

    検証データ

    OSS

    ファイルデータの読み取り

  • コンポーネントパラメータ

    タブ

    パラメーター

    説明

    フィールド設定

    Language

    入力ファイルの言語。 デフォルト値: zh。 有効な値:

    • zh

    • en

    入力スキーマ

    入力ファイルの各列のデータスキーマ。 複数の列はコンマ (,) で区切ります。 デフォルト値: qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1.

    質問列

    入力ファイル内の質問を含む列の名前。 デフォルト値: question_text

    コンテキスト列

    入力ファイル内のテキストパッセージを含む列の名前。 デフォルト値: context_text。

    回答列

    入力ファイルの回答を含む列の名前。 デフォルト値: answer_text。

    Id列

    入力ファイルのID列の名前。 デフォルト値: qas_id。

    開始位置列

    入力ファイル内の応答スパンの開始位置を含む列の名前。 質問に対する回答がテキストパッセージで見つかる場合、回答範囲の開始位置がこの列に記録されます。 デフォルト値: start_position_character。

    モデル保存パス

    トレーニング済みまたは微調整済みのMRCモデルを格納するObject Storage Service (OSS) バケットのパス。

    パラメーター設定

    バッチサイズ

    一度に処理するサンプルの数。 値はINT型でなければなりません。 デフォルト値: 4。 モデルが複数のGPUを持つ複数のワーカーでトレーニングされている場合、このパラメーターには、各GPUがバッチごとに処理するサンプルの数を指定します。

    最大コンテキスト長

    処理できるテキストパッセージの最大長。 値はINT型でなければなりません。 デフォルト値: 384

    最大クエリ長

    処理できる質問の最大長。 値はINT型でなければなりません。 デフォルト値: 64。

    ドクストライド

    各スライスされたテキストパッセージのスライドウィンドウの長さ。 値はINT型でなければなりません。 デフォルト値: 128

    Numエポック

    トレーニングのエポックの総数。 値はINT型でなければなりません。 デフォルト値: 3。

    学習率

    モデルトレーニング中の学習率。 値はFLOAT型でなければなりません。 デフォルト値: 3.5e-5。

    チェックポイントステップの保存

    システムがモデルを評価して最適なモデルを保存する前に実行されるステップ数。 値はINT型でなければなりません。 既定値:600。

    モデル選択

    システムによって提供される事前トレーニング済みモデルの名前またはパス。 デフォルト値: hfl/macbert-base-zh。 有効な値:

    • ユーザー定義

    • hfl/macbert-base-zh

    • hfl/macbert-large-zh

    • bert-base-uncased

    • bert-large-uncased

    カスタムモデルパス

    このパラメーターは、モデル選択パラメーターを [ユーザー定義] に設定した場合にのみ使用できます。

    カスタムの事前トレーニングモデルまたは微調整モデルを使用する場合は、モデルパラメーターを {a: xxx, B: xxx} 形式で指定します。 キーと値はコロン (:) で区切ります。 複数のパラメーターはコンマ (,) で区切ります。

    チューニング

    GPUマシンタイプ

    使用するGPUアクセラレーションノードのインスタンスタイプ。 デフォルト値はgn5-c8g1.2xlargeで、ノードが8 vCPU、80 GBメモリ、および単一のP100 GPUを使用することを指定します。

    num_GPU_ワーカー

    各ワーカーのGPUの数。 デフォルト値は 1 です。

  • 出力ポート

    出力ポート (左から右)

    データ型

    下流コンポーネント

    モデルのストレージパス

    OSSパス。 このパスは、[フィールド設定] タブの [モデル保存パス] パラメーターに指定したパスと同じです。 生成されたトレーニング済みモデルはこのパスに格納されます。

    マシン読み取り理解予測

次の図は、機械読み取り理解力トレーニングコンポーネントが使用されるサンプルパイプラインを示しています。image

コンポーネントを設定するには、次の手順を実行します。

  1. トレーニングデータセット評価データセットを準備し、OSSバケットにアップロードします。 詳細については、OSSコンソールを使用して開始するトピックの「オブジェクトのアップロード」セクションをご参照ください。

    データセットは、TSVまたはTEXT形式にすることができ、次の列を含みます。

    • トレーニングデータセット

      ID列、テキスト列、質問列、回答列、開始位置列、タイトル列 (オプション)

    • 評価データセット

      ID列、テキスト列、質問列、回答列 (オプション) 、開始位置列 (オプション) 、およびタイトル列 (オプション)

    この例では、TSVファイルを使用してモデルをトレーニングする方法を示します。

  2. [Read File Data - 1] および [Read File Data - 2] コンポーネントを使用して、トレーニングデータセットと評価データセットを読み取ります。 これを行うには、Read File Data-1コンポーネントのOSS Data PathパラメーターをトレーニングデータセットのOSSパスに設定し、Read File Data-2コンポーネントのOSS Data pathパラメーターを評価データセットのOSSパスに設定します。

  3. [Read File Data-1] および [Read File Data-2] コンポーネントをアップストリームノードとしてマシンリーディング理解度トレーニングコンポーネントに接続し、マシンリーディング理解度トレーニングコンポーネントを設定します。 詳細については、このトピックの「コンポーネントパラメーター」セクションをご参照ください。

関連ドキュメント

  • 機械読み取り理解予測コンポーネントを使用すると、機械読み取り理解トレーニングコンポーネントによってトレーニングされたモデルを使用して、バッチ予測を実行できます。 詳細については、「機械読み取り理解予測」をご参照ください。

  • Machine Learning Designerコンポーネントの詳細については、「Machine Learning Designerの概要」をご参照ください。

  • Machine Learning Designerは、さまざまなプリセットアルゴリズムコンポーネントを提供します。 実際のビジネスシナリオに基づいてデータを処理するコンポーネントを選択できます。 詳細については、「コンポーネントリファレンス: すべてのコンポーネントの概要」をご参照ください。