LLM-特殊內容移除組件主要用於大語言模型(LLM)的文本資料預先處理工作,可以移除文本中的特殊內容,例如文章中的導航資訊、作者資訊、文章來源資訊、URL連結、不可見字元、去除HTML格式字元並解析出HTML文本等。
使用限制
僅支援MaxCompute計算引擎。
演算法簡介
LLM-特殊內容移除組件支援以下功能:
首先使用分行符號將文本切分為多行。
去除文章中的導航資訊
導航資訊關鍵字包括:
'首頁>'、'首頁>'、'首頁»'、'首頁/'、'首頁|'。導航資訊Regex:
'當前位置:.*[>]{1,}'、'的位置:.*[>]{1,}'。刪除包含上述關鍵字或匹配上Regex的文本行。
去除文章中的作者資訊
如果文本中包含如下某個關鍵字,同時必須包含至少一個標點符號
'.?!;:。?!;,,!',則刪除該行。作者資訊關鍵字包括:
'本報記者 '、'來源:'、'編輯:'、'登入|註冊'、'本文地址:'、'發表日期:'、'添加時間:'、'分享到:'、'“掃一掃”'、'相關連結:'、'時時彩'、'網站導航 '、'| 聯絡我們'、'首頁 '、'當前所在位置:'、'發佈於 '、'所在位置: '。
去除文章來源資訊
文章來源Regex包括:
r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})',r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[來源:|編輯:]'。只在前五行匹配上述Regex。刪除前五行中匹配上Regex的文本行。
說明如果選擇上述的“去除文章中的導航資訊”和“去除文章中的作者資訊”,則前五行是處理之後的五行,不是未經處理資料的前五行。
去除URL連結
刪除文本中匹配正則表示式
r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字元。去除不可見字元
刪除文本中匹配正則表示式
'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字元。去除HTML格式字元並解析出HTML文本
將文本中的
'<li>'替換成'\n*','<ol>'替換成'\n*',並刪除'</li>'和'</ol>'字元。最後解析HTML文本並返回。
例如去除文章中的URL連結:
處理前:

處理後:

可視化配置參數
您可以在Designer中,通過可視化的方式配置組件參數。
頁簽 | 參數 | 是否必選 | 描述 | 預設值 |
欄位設定 | 選擇目標處理列 | 是 | 選擇要處理的列,支援選擇多個列。 | 無 |
設定輸出表生命週期 | 否 | 正整數,單位為天。預設28天,28天后該組件產生的暫存資料表被回收。 | 28 | |
執行調優 | 每個執行個體的cpu數目 | 否 | 設定map task每個instance的CPU數目,取值範圍為[50,800]。 | 100 |
每個執行個體的memory大小,單位M | 否 | 設定map task每個instance的memory大小,單位為MB,取值範圍為[256,12288]。 | 1024 | |
每個執行個體處理的資料大小,單位M | 否 | 設定map task每個instance的最大處理資料量,使用者可以通過控制該變數,實現對map端輸入的控制。單位為MB,取值範圍為[1,Integer.MAX_VALUE]。 | 256 |
相關文檔
關於Designer組件更詳細的內容介紹,請參見Designer概述。