全部產品
Search
文件中心

Platform For AI:LLM大語言模型資料處理 - github code

更新時間:Jul 13, 2024

本文以開源專案RedPajama在GitHub中的少量資料為例,為您介紹如何使用PAI提供的LLM大語言模型資料處理組件,對GitHub代碼資料進行資料清洗和處理。

前提條件

資料集

本文從開源專案RedPajama的GitHub未經處理資料中抽取5000個樣本資料進行示範。

您可以參考資料處理流程對資料進行清洗和處理,以提高資料品質,進而提升模型的訓練效果。

資料處理流程

  1. 進入Designer頁面。

    1. 登入PAI控制台

    2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。

    3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。

  2. 構建工作流程。

    1. 在Designer頁面,單擊預置模板頁簽。

    2. LLM大語言模型頁簽的LLM大語言模型資料處理 - github code地區中,單擊建立

    3. 建立工作流程對話方塊中,配置參數(可以全部使用預設參數),然後單擊確定

      其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的資料。

    4. 在工作流程列表中,雙擊目標工作流程,進入工作流程。

    5. 系統根據預置的模板,自動構建工作流程,如下圖所示。image

      組件

      描述

      LLM-敏感資訊打碼-1

      將敏感資訊打碼。例如:

      • 將郵箱地址字元替換成[EMAIL]

      • 將手機電話號碼替換成[TELEPHONE][MOBILEPHONE]

      • 將社會安全號碼碼替換成IDNUM

      以下是對content欄位經過處理後的資料樣本,其中的郵箱地址已被替換成了[EMAIL]

      • 處理前image

      • 處理後image

      LLM-特殊內容移除-1

      將content欄位中的URL連結刪除。

      以下是對content欄位經過處理後的資料樣本,其中相關的URL已被刪除。

      • 處理前image

      • 處理後image

      LLM-文本標準化-1

      將content欄位中的文本進行Unicode標準化處理。

      以下是對content欄位經過處理後的資料樣本,其中相關的文本已被標準化處理。

      LLM-Copyrigtht資訊移除-1

      將content欄位中的Copyright資訊刪除。

      以下是對content欄位經過處理後的資料樣本,其中相關的Copyright資訊已被刪除。

      • 處理前image

      • 處理後image

      LLM-計數過濾-1

      將content欄位中不符合數字和字母字元佔比的樣本去除。GitHub代碼資料集中大部分字元都由字母和數字組成,通過該組件可以去除部分髒資料。

      以下是被去除的部分資料列表,可以看到很多的髒資料被去除。

      image

      LLM-長度過濾-1

      根據content欄位的總長度、平均長度和最大行長度進行樣本過濾。平均長度和最大行長度使用分行符號("\n")分割樣本。

      以下是被去除的部分資料集列表,很多過短和過長的代碼髒資料會被去除。image

      LLM-N-Gram重複比率過濾-1

      根據content欄位的字元級以及詞語級N-Gram重複比率進行樣本過濾。

      將文本裡的內容按照字元或詞語進行大小為N的滑動視窗操作,形成了長度為N的片段序列。每一個片段稱為gram,對所有gram的出現次數進行統計。最後統計頻次大於1的gram的頻次總和 / 所有gram的頻次總和兩者比率作為重複比率進行樣本過濾。

      說明

      如果是詞語級統計,會先將所有單詞轉成小寫格式再計算重複度。

      LLM-長度過濾-2

      使用該組件根據空格將樣本切分成單字清單,根據切分後的列表長度過濾樣本,實際是根據單詞個數過濾樣本。

      LLM-文章相似性去重-1

      使用該組件去除相似的文本。

  3. 單擊畫布上方的運行按鈕image,運行工作流程。

  4. 工作流程成功運行後,按右鍵寫資料表-1組件,在捷徑功能表中選擇查看資料 > 輸出

    輸出的樣本為經過上述所有處理組件過濾以及處理後的樣本。image

相關文檔

在完成資料處理後,您可以使用PAI平台提供的一系列大模型組件(包括資料處理組件、訓練組件以及推理組件),來實現大模型從開發到使用的端到端流程。詳情請參見LLM大語言模型端到端鏈路:資料處理+模型訓練+模型推理