Platform for AI (PAI) の機械学習デザイナーは、データの編集、変換、フィルタリング、識別、重複排除に役立つさまざまなデータ処理コンポーネントを提供しています。さまざまなコンポーネントを組み合わせて、高品質のデータをフィルタリングし、ビジネス要件を満たすテキストサンプルを生成できます。処理されたデータを使用して、大規模言語モデル (LLM) をトレーニングできます。このトピックでは、PAI が提供する LLM データ処理コンポーネントを使用して、GitHub コードデータをクレンジングおよび処理する方法について説明します。このトピックでは、オープンソースの RedPajama-Data プロジェクトから取得した少量のデータを使用します。
DLC コンポーネントは、分散 Ray フレームワークを使用した大規模データ処理をサポートし、インテリジェントグループ化をサポートしています。これにより、不要なデータストレージ操作を削減しながら、効率的なデータ処理とリソース活用が可能になります。
データセット
このトピックでは、オープンソースの RedPajama-Data プロジェクトの生データから抽出された 5,000 件のサンプルを、機械学習デザイナーのプリセットテンプレート「LLM (GitHub コード) のためのデータ処理」のデータセットとして使用します。
パイプラインの作成と実行
ビジュアルモデリング (デザイナー) ページに移動します。
PAI コンソール にログオンします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。ワークスペースページで、管理するワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[モデルトレーニング] > [ビジュアルモデリング (デザイナー)] を選択します。
パイプラインを作成します。
[プリセットテンプレート] タブで、[ビジネス分野] > [LLM] を選択します。[LLM (github コード) のためのデータ処理] セクションで、[作成] をクリックします。

パイプラインの作成ダイアログボックスで、パイプラインパラメーターを設定し、[OK] をクリックします。デフォルト値を保持できます。
パイプラインリストで、作成したパイプラインを見つけ、[開く] をクリックします。
パイプラインを設定します。

| パイプラインには、次の主要コンポーネントが含まれています。 LLM-機密コンテンツマスク (DLC)-1 content フィールドのテキストサンプル内の機密情報をマスクします。例: LLM-特殊コンテンツのクリーンアップ (DLC)-1 content フィールドのテキストサンプルから URL を削除します。 LLM-テキスト正規化 (DLC)-1 content フィールドのテキストサンプルを Unicode 形式に正規化します。 LLM-著作権情報のクリーンアップ (DLC)-1 content フィールドのテキストサンプルから著作権情報を削除します。 LLM-カウントフィルター (DLC)-1 数字と文字の比率、および文字とテキストトークンの比率に基づいて、content フィールドのテキストサンプルをフィルタリングします。GitHub コードデータセットの文字のほとんどは文字と数字です。このコンポーネントは、データセット内のデータをクレンジングするのに役立ちます。 LLM-長さフィルター (DLC)-1 テキストの長さ、平均の長さ、および最大行の長さに基づいて、content フィールドのテキストサンプルをフィルタリングします。テキストは改行 (\n ) によって行に分割されます。コンポーネントは平均の長さと最大行の長さを計算し、指定されたしきい値に基づいてテキストサンプルをフィルタリングします。 LLM-N-Gram 反復フィルター (DLC)-1 文字レベルまたは単語レベルの N-Gram の反復率に基づいて、content フィールドのテキストサンプルをフィルタリングします。N-gram が単語のシーケンスである場合、コンポーネントは反復率を計算する前にすべての単語を小文字に変換します。コンポーネントは、テキストサンプル全体で N 文字のウィンドウを移動して、N 文字または単語のシーケンスを生成します。各シーケンスは N-gram と呼ばれます。コンポーネントは各 N-gram の出現回数をカウントし、次の式を使用して反復率を計算します。 Total frequencies of N-grams that occur more than once/Total frequencies of all N-grams . LLM-長さフィルター (DLC)-2 テキストの長さに基づいて、content フィールドのテキストサンプルをフィルタリングします。 LLM-MinHash 重複除去 (DLC)-1 MinHash アルゴリズムに基づいてテキストサンプルの重複を削除します。
|
パイプラインを実行します。
パイプラインを実行した後、[LLM-ドキュメント重複除去 (DLC)-1] コンポーネントを右クリックし、[データの表示] > [出力テーブル] を選択して、前のすべてのコンポーネントによって処理されたサンプルファイルを表示します。
