Platform for AI (PAI) の機械学習デザイナーは、データの編集、変換、フィルタリング、識別、重複排除に役立つさまざまなデータ処理コンポーネントを提供します。さまざまなコンポーネントを組み合わせて、高品質のデータを取得し、ビジネス要件を満たすテキストサンプルを生成できます。処理されたデータを使用して、大規模言語モデル (LLM) をトレーニングできます。このトピックでは、PAI のデータ処理コンポーネントを使用して、教師ありファインチューニング (SFT) データをクレンジングおよび処理する方法について説明します。このトピックでは、オープンソースの Alpaca-CoT プロジェクトから取得した少量のデータを使用します。
DLC コンポーネントは、分散 Ray フレームワークを使用した大規模データ処理をサポートし、インテリジェントグループ化をサポートしています。これにより、不要なデータストレージ操作を削減しながら、効率的なデータ処理とリソース活用が可能になります。
データセット
このトピックでは、オープンソースの Alpaca-CoT プロジェクトの生データから抽出された 5,000 件のサンプルを、機械学習デザイナーのプリセットテンプレート LLM データ処理 - Alpaca-Cot (SFT データ) のデータセットとして使用します。
パイプラインの作成と実行
ビジュアルモデリング (デザイナー) ページに移動します。
PAI コンソール にログオンします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。ワークスペースページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[モデルトレーニング] > [ビジュアルモデリング (デザイナー)] を選択します。
パイプラインを作成します。
[プリセットテンプレート] タブで、[ビジネス分野] > [LLM] を選択します。[LLM データ処理 - Alpaca-cot (SFT データ)] セクションで、[作成] をクリックします。

[パイプラインの作成] ダイアログボックスで、パイプラインパラメーターを設定し、[OK] をクリックします。デフォルト値を保持できます。
パイプラインリストで、作成したパイプラインを見つけ、[開く] をクリックします。
パイプラインを設定します。

| パイプラインには、次の主要コンポーネントが含まれています。 LLM-MD5 Deduplicator (DLC)-1 テキストフィールド内のテキストサンプルのハッシュ値を計算し、ハッシュ値に基づいてテキストサンプルの重複を排除します。複数のテキストサンプルが同じハッシュ値を持つ場合、1 つのテキストサンプルのみが保持されます。 LLM-Count Filter (DLC)-1 テキストフィールドから、数字と文字の必要な比率を満たしていないテキストサンプルを削除します。 SFT データセットの文字のほとんどは文字と数字です。このコンポーネントは、データセット内のデータをクレンジングするのに役立ちます。 LLM-N-Gram Repetition Filter (DLC)-1 文字レベルの N-Gram の繰り返し率に基づいて、テキストフィールド内のテキストサンプルをフィルタリングします。コンポーネントは、テキストサンプル全体に N 文字のウィンドウを移動して、N 文字のシーケンスを生成します。各シーケンスは N-gram と呼ばれます。コンポーネントは各 N-gram の出現回数をカウントし、次の式を使用して繰り返し率を計算します。Total frequencies of N-grams that occur more than once/Total frequencies of all N-grams . LLM-Sensitive Keywords Filter (DLC)-1 プリセットのセンシティブキーワード ファイルで指定されたセンシティブキーワードを含むテキストフィールド内のテキストサンプルを除外します。 LLM-Length Filter (DLC)-1 テキストの長さと最大行の長さに基づいて、テキストフィールド内のテキストサンプルをフィルタリングします。テキストは改行 (\n ) によって行に分割されます。コンポーネントは最大行の長さを計算し、指定されたしきい値に基づいてテキストサンプルをフィルタリングします。 LLM-SimHash Deduplicator (DLC)-1 MinHash アルゴリズムに基づいてテキストサンプルの重複を排除します。
|
パイプラインを実行します。
パイプラインを実行した後、[llm-document Deduplicator (DLC)-1] コンポーネントを右クリックし、[データの表示] > [出力テーブル] を選択して、前のすべてのコンポーネントによって処理されたサンプルファイルを表示します。
