Machine Learning Designer of Platform for AI (PAI) は、データの編集、変換、フィルタリング、重複排除に役立つさまざまなデータ処理コンポーネントを提供しています。 さまざまなコンポーネントを組み合わせて、高品質のデータをフィルタリングし、要件を満たすテキストサンプルを生成できます。 処理されたデータを使用して、ラージランゲージモデル (LLM) をトレーニングできます。 このトピックでは、PAIのデータ処理コンポーネントを使用して、arXivリポジトリから取得した論文データをクリーンアップおよび処理する方法について説明します。 次の例では、オープンソースのRedPajamaデータセットから抽出された少量のarXivデータが使用されています。
データセット
Machine Learning Designerは、arXivリポジトリの論文データを処理するためのプリセットテンプレートを提供します。 テンプレートは、オープンソースのRedPajamaデータセットから抽出された5,000のサンプルデータレコードを使用します。
パイプラインの作成と実行
視覚化モデリング (デザイナー) ページに移動します。
PAIコンソールにログインします。
左上隅で、ビジネス要件に基づいてリージョンを選択します。
左側のナビゲーションウィンドウで、[ワークスペース] をクリックします。 [ワークスペース] ページで、使用するワークスペースの名前をクリックします。
ワークスペースで、左側のナビゲーションウィンドウで、モデルトレーニング > 視覚化モデリング (デザイナー) を選択します。
パイプラインを作成します。
[Visualized Modeling (Designer)] ページで、[プリセットテンプレート] タブをクリックし、ドロップダウンリストから [ビジネスエリア] を選択し、[Large Language Model (LLM)] タブをクリックします。 LLMデータ処理-arXiv (Thesis Data) テンプレートを見つけて、[作成] をクリックします。
パイプラインパラメーターを設定し、[OK] をクリックします。 デフォルト値のままでかまいません。
パイプラインリストで、作成したパイプラインをクリックし、[開く] をクリックします。
パイプラインを設定します。
パイプラインには、次の主要コンポーネントが含まれます。
LLMに敏感なコンテンツマスク (MaxCompute)-1
テキストフィールドの機密コンテンツをマスクします。 例:
メールアドレスを
[電子メール]
に置き換えます。電話番号を
[電話]
または[携帯電話]
に置き換えます。IDカード番号を
IDNUM
に置き換えます。
LLM-クリーン特殊コンテンツ (MaxCompute)-1
テキストフィールドからURLを削除します。
LLM-テキスト正規化 (MaxCompute)-1
テキストフィールドのテキストサンプルをUnicode形式に正規化し、中国語のテキストを従来の文字から簡易文字に変換します。
LLM-カウントフィルター (MaxCompute)-1
必要な英数字の数または比率を満たさないテキストサンプルをテキストフィールドから削除します。 arXivデータセットの文字のほとんどは、文字と数字です。 このコンポーネントは、データセット内のデータをクリーンアップするのに役立ちます。
LLM-長さフィルタ (MaxCompute)-1
テキストフィールドのテキストサンプルを平均行長に基づいてフィルター処理します。 テキストは改行 (
\n
) によって行に分割されます。 このコンポーネントは、行の平均長を計算し、指定されたしきい値に基づいてテキストサンプルをフィルタリングします。LLM-N-Gram反復フィルター (MaxCompute)-1
文字レベルのNグラムの繰り返し率に基づいて、テキストフィールドのテキストサンプルをフィルター処理します。 このコンポーネントは、N文字の連続シーケンスを生成するために、テキストを横切ってN文字ウィンドウを移動させる。 各シーケンスはNグラムと呼ばれる。 コンポーネントは、各Nグラムの発生をカウントし、次の式を使用して繰り返し率を計算します。
1回以上発生するNグラムの合計頻度 /すべてのNグラムの合計頻度
。LLMに敏感なキーワードフィルター (MaxCompute)-1
プリセット機密キーワードファイルで指定された機密キーワードを含むテキストフィールドのテキストサンプルをフィルター処理します。
LLM-長さフィルタ (MaxCompute)-2
最長行の長さに基づいてテキストサンプルをフィルター処理します。 テキストは改行 (
\n
) によって行に分割されます。 このコンポーネントは、最長行の長さを計算し、指定されたしきい値に基づいてテキストサンプルをフィルタリングします。LLM-Perplexityフィルター (MaxCompute)-1
テキストの混乱を計算し、指定された混乱しきい値に基づいてテキストサンプルをフィルタリングします。
LLM-特殊文字比率フィルター (MaxCompute)-1
必要な特殊文字の比率を満たさないテキストサンプルをテキストフィールドから削除します。
LLM-長さフィルタ (MaxCompute)-3
テキストの長さに基づいてテキストサンプルをフィルターします。
LLM-トークン化 (MaxCompute)-1
テキストをトークンに分割し、結果を新しい列に保存します。
LLM-長さフィルタ (MaxCompute)-4
スペース (
""
) をセパレータとして使用してテキストを単語のリストに分割し、単語数に基づいてテキストサンプルをフィルタリングします。LLM-N-Gram反復フィルター (MaxCompute)-2
単語レベルのNグラムの繰り返し率に基づいて、テキストフィールドのテキストサンプルをフィルター処理します。 このコンポーネントは、すべての単語を小文字に変換し、N単語ウィンドウをテキスト全体に移動して、N単語の連続シーケンスを生成します。 各シーケンスはNグラムと呼ばれる。 コンポーネントは、各Nグラムの発生をカウントし、次の式を使用して繰り返し率を計算します。
1回以上発生するNグラムの合計頻度 /すべてのNグラムの合計頻度
。LLM-ドキュメントデデュプリケーター (MaxCompute)-1
Jaccard類似性インデックスの指定されたしきい値とLevenshtein距離に基づいて、テキストサンプルの重複を解消します。
パイプラインを実行します。
パイプラインの実行後、[テーブル1の書き込み] コンポーネントを右クリックし、[データの表示] > [出力] を選択して、処理されたデータセットを表示します。
関連ドキュメント
LLMデータ処理コンポーネントの詳細については、「LLMデータ処理 (MaxCompute) 」をご参照ください。
PAIは、データ処理、モデルトレーニング、およびモデル推論のための一連のコンポーネントを提供します。 データ処理が完了したら、コンポーネントを使用して、LLM開発からアプリケーションまでのエンドツーエンドのプロセスを実装できます。 詳細については、「E2Eの開発と使用方法: データ処理 + モデルトレーニング + モデル推論」をご参照ください。