本文為您介紹如何通過PAI提供的文本類組件,快速構建文本分類模型。
背景資訊
新聞分類是文本挖掘領域較為常見的情境。很多媒體或內容生產商對於新聞文本的分類通常採用手工標註的方式,消耗了大量的人力資源。PAI提供的智能文本挖掘演算法可以實現新聞文本分類自動化(包括分詞、詞型轉換、停用詞過濾、主題挖掘及聚類等流程)。本工作流程首先通過PLDA演算法挖掘文章的主題,然後進行主題權重聚類,從而實現新聞自動分類。
本工作流程資料為虛構資料,僅用於學習。
前提條件
已開通PAI(Designer)並建立了工作空間,詳情請參見開通PAI並建立預設工作空間。
已將MaxCompute資源關聯到工作空間,詳情請參見管理工作空間。
基於文本分析演算法實現新聞分類
進入Designer頁面。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導覽列選擇 ,進入Designer頁面。
構建工作流程。
在Designer頁面,單擊預置模板頁簽。
在模板列表的文本分析-新聞分類地區,單擊建立。
在建立工作流程對話方塊,配置參數(可以全部使用預設參數)。
其中:工作流程資料存放區配置為OSS Bucket路徑,用於儲存工作流程運行中產出的臨時資料和模型。
單擊確定。
您需要等待大約十秒鐘,工作流程可以建立成功。
在工作流程列表,雙擊文本分析-新聞分類工作流程,進入工作流程。
系統根據預置的模板,自動構建工作流程,如下圖所示。
地區
描述
①
增加序號。本工作流程的資料來源以單個新聞為單元,需要增加ID列作為每篇新聞的唯一標識,便於演算法計算。
②
分詞及詞頻統計。首先使用分片語件對content欄位(新聞內容)進行分詞。然後對過濾停用詞後的文本進行詞頻統計。
③
過濾停用詞,通常過濾標點符號及對文章影響較小的助語等。
④
挖掘文本主題:
PLDA文本挖掘組件的輸入必須為三元形式,因此使用三元組轉kv組件將文本轉換為三元形式(文本轉換為數字)。
其中:
append_id:每篇新聞的唯一標識。
key_value:冒號前面的數字表示單詞抽象成的數位識別碼,冒號後面的數字表示對應的單詞出現頻率。
使用PLDA組件訓練模型。
PLDA演算法(主題模型)可以定位每篇文章的主題詞語。本工作流程配置了50個主題,PLDA組件的第五個輸出樁輸出每篇文章對應每個主題的機率。
⑤
結果分析和評估。通過以上步驟已經將文本從主題維度轉換成了向量,可以通過向量距離實現聚類,從而實現文本分類。
運行工作流程並查看模型效果。
單擊畫布上方的運行。
工作流程運行結束後,按右鍵畫布中的K均值聚類,在捷徑功能表,單擊 ,即可查看分類結果。
其中:
cluster_index:表示每一類的名稱。
append_id:每篇新聞的唯一標識。
按右鍵畫布中的過濾與映射,在捷徑功能表,單擊append_id為115、292、248及166的新聞。 ,即可查看
本工作流程的新聞分類結果不夠理想(兩篇體育類、一篇財經類及一篇科技類新聞分到了同一類中),主要原因如下:
工作流程資料量較小。
僅針對業務情境介紹文本分析演算法的使用方法,未對資料集進行特徵工程處理及細節調優。
因為本工作流程範本已為過濾與映射配置了過濾條件,所以您可以直接查看append_id為115、292、248及166的新聞。如果需要查看其它新聞,則可以參見如下樣本,將過濾與映射組件的過濾條件配置為相應的新聞ID。
append_id=292 or append_id=115 or append_id=248 or append_id=166 ;