全部產品
Search
文件中心

Platform For AI:LLM大語言模型資料處理-Wikipedia(web text資料)

更新時間:Jul 13, 2024

LLM資料處理演算法提供了對資料樣本進行編輯和轉換、過濾低品質樣本、識別和重複資料刪除樣本等功能。您可以根據實際需求組合不同的演算法,從而過濾出合適的資料並產生符合要求的文本,方便為後續的LLM訓練提供優質的資料。本文以開源RedPajama Wikipedia中的少量資料為例,為您介紹如何使用PAI提供的大模型資料處理組件,對Wikipedia資料進行資料清洗和處理。

資料集說明

本文Designer中“LLM大語言模型資料處理-Wikipedia (web text資料)”預置模板用的資料集為開源專案RedPajama的未經處理資料中抽取的5000個樣本資料。

建立並運行工作流程

  1. 進入Designer頁面。

    1. 登入PAI控制台

    2. 在頂部左上方根據實際情況選擇地區。

    3. 在左側導覽列選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間。

    4. 在左側導覽列選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。

  2. 建立工作流程。

    1. 預置模板頁簽下,選擇業務領域 > LLM 大語言模型,單擊LLM大語言模型資料處理-Wikipedia (web text資料)模板卡片上的建立

      image

    2. 配置工作流程參數(或保持預設),單擊確定

    3. 在工作流程列表,選擇已建立的工作流程,單擊進入工作流程

  3. 工作流程說明:

    image

    工作流程中關鍵演算法組件說明:

    • LLM-敏感資訊打碼(MaxCompute)-1

      將“text”欄位中的敏感資訊打碼。例如:

      • 將郵箱地址字元替換成[EMAIL]

      • 將手機電話號碼替換成[TELEPHONE][MOBILEPHONE]

      • 將社會安全號碼碼替換成IDNUM

    • LLM-特殊內容移除(MaxCompute)-1

      將“text”欄位中的URL連結刪除。

    • LLM-文本標準化(MaxCompute)-1

      將“text”欄位中的文本進行Unicode標準化處理;將繁體轉簡體。

    • LLM-計數過濾(MaxCompute)-1

      將“text”欄位中不符合數字和字母字元個數或佔比的樣本去除。wiki資料集中大部分字元都由字母和數字組成,通過該組件可以去除部分髒資料。

    • LLM-長度過濾(MaxCompute)-1

      根據“text”欄位的平均長度進行樣本過濾。平均長度基於分行符號\n分割樣本。

    • LLM-N-Gram重複比率過濾(MaxCompute)-1

      根據“text”欄位的字元級N-Gram重複比率進行樣本過濾,即將文本裡的內容按照字元進行大小為N的滑動視窗操作,形成了長度為N的片段序列。每一個片段稱為gram,對所有gram的出現次數進行統計。最後統計頻次大於1的gram的頻次總和 / 所有gram的頻次總和兩者比率作為重複比率進行樣本過濾。

    • LLM-敏感詞過濾(MaxCompute)-1

      使用系統預置敏感詞檔案過濾“text”欄位中包含敏感詞的樣本。

    • LLM-語種識別和過濾(MaxCompute)-1

      計算“text”欄位文本的信賴度,根據設定的信賴度閾值過濾樣本。

    • LLM-長度過濾(MaxCompute)-2

      根據“text”欄位的最大行長度進行樣本過濾。最大行長度基於分行符號\n分割樣本。

    • LLM-困惑度過濾(MaxCompute)-1

      計算“text”欄位文本的困惑度,根據設定的困惑度閾值過濾樣本。

    • LLM-特殊字元佔比過濾(MaxCompute)-1

      將“text”欄位中不符合特殊字元佔比的樣本去除。

    • LLM-長度過濾(MaxCompute)-3

      根據“text”欄位的長度進行樣本過濾。

    • LLM-分詞(MaxCompute)-1

      將“text”欄位的文本進行分詞處理,並將結果儲存至新列。

    • LLM-長度過濾(MaxCompute)-4

      根據分隔字元" "(空格)將“text”欄位樣本切分成單字清單,根據切分後的列表長度過濾樣本,即根據單詞個數過濾樣本。

    • LLM-N-Gram重複比率過濾(MaxCompute)-2

      根據“text”欄位的詞語級N-Gram重複比率(會先將所有單詞轉成小寫格式再計算重複度)進行樣本過濾,即將文本裡的內容按照詞語進行大小為N的滑動視窗操作,形成了長度為N的片段序列。每一個片段稱為gram,對所有gram的出現次數進行統計。最後統計頻次大於1的gram的頻次總和 / 所有gram的頻次總和兩者比率作為重複比率進行樣本過濾。

    • LLM-文章相似性去重(MaxCompute)-1

      根據設定的Jaccard相似性和Levenshtein距離閾值去除相似的樣本。

  4. 運行工作流程。

    運行結束後,按右鍵寫資料表-1組件,選擇查看資料 > 輸出,查看經過上述所有組件處理後的樣本。

    image

相關參考