全部產品
Search
文件中心

Platform For AI:LLM-特殊內容移除(MaxCompute)

更新時間:Jul 13, 2024

LLM-特殊內容移除組件主要用於大語言模型(LLM)的文本資料預先處理工作,可以移除文本中的特殊內容,例如文章中的導航資訊、作者資訊、文章來源資訊、URL連結、不可見字元、去除HTML格式字元並解析出HTML文本等。

使用限制

僅支援MaxCompute計算引擎。

演算法簡介

LLM-特殊內容移除組件支援以下功能:

首先使用分行符號將文本切分為多行。

  • 去除文章中的導航資訊

    • 導航資訊關鍵字包括:'首頁>''首頁>''首頁»''首頁/''首頁|'

    • 導航資訊Regex:'當前位置:.*[>]{1,}''的位置:.*[>]{1,}'

    • 刪除包含上述關鍵字或匹配上Regex的文本行。

  • 去除文章中的作者資訊

    如果文本中包含如下某個關鍵字,同時必須包含至少一個標點符號'.?!;:。?!;,,!',則刪除該行。

    作者資訊關鍵字包括:'本報記者 ''來源:''編輯:''登入|註冊''本文地址:''發表日期:''添加時間:''分享到:''“掃一掃”''相關連結:''時時彩''網站導航 ''| 聯絡我們''首頁 ''當前所在位置:''發佈於 ''所在位置: '

  • 去除文章來源資訊

    文章來源Regex包括:r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\s\d{1,2}:\d{1,2}:\d{1,2})'r'\d{4}[-/]\d{1,2}[-/]\d{1,2}.*[來源:|編輯:]'

    只在前五行匹配上述Regex。刪除前五行中匹配上Regex的文本行。

    說明

    如果選擇上述的“去除文章中的導航資訊”和“去除文章中的作者資訊”,則前五行是處理之後的五行,不是未經處理資料的前五行。

  • 去除URL連結

    刪除文本中匹配正則表示式r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字元。

  • 去除不可見字元

    刪除文本中匹配正則表示式'[\001\002\003\004\005\006\007\x08\x09\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'的字元。

  • 去除HTML格式字元並解析出HTML文本

    將文本中的'<li>'替換成'\n*''<ol>'替換成'\n*',並刪除'</li>''</ol>'字元。最後解析HTML文本並返回。

例如去除文章中的URL連結:

  • 處理前:

    image

  • 處理後:

    image

可視化配置參數

您可以在Designer中,通過可視化的方式配置組件參數。

頁簽

參數

是否必選

描述

預設值

欄位設定

選擇目標處理列

選擇要處理的列,支援選擇多個列。

設定輸出表生命週期

正整數,單位為天。預設28天,28天后該組件產生的暫存資料表被回收。

28

執行調優

每個執行個體的cpu數目

設定map task每個instance的CPU數目,取值範圍為[50,800]。

100

每個執行個體的memory大小,單位M

設定map task每個instance的memory大小,單位為MB,取值範圍為[256,12288]。

1024

每個執行個體處理的資料大小,單位M

設定map task每個instance的最大處理資料量,使用者可以通過控制該變數,實現對map端輸入的控制。單位為MB,取值範圍為[1,Integer.MAX_VALUE]。

256

相關文檔

關於Designer組件更詳細的內容介紹,請參見Designer概述