本文為您介紹Designer提供的關鍵詞抽取演算法組件。
關鍵詞抽取是自然語言處理中的重要技術之一,具體是指從文本中將與這篇文章意義相關性較強的一些詞抽取出來。該演算法基於TextRank,根據PageRank演算法思想,利用局部詞彙之間關係(共現視窗)構建網路,並計算單詞的重要性,最終選取權重大的作為關鍵詞。
常用流程如下:
原始語料
分詞
使用詞過濾
關鍵詞抽取
組件配置
您可以使用以下任意一種方式,配置關鍵詞抽取組件參數。
方式一:可視化方式
在Designer工作流程頁面配置組件參數。
頁簽 | 參數 | 描述 |
欄位設定 | 標識文章id的列名 | 輸入標識文章ID的列名。 |
標識文章內容分完詞結果 | 輸入標識文章內容分完詞結果名稱。 | |
參數設定 | 輸出前多少個關鍵詞 | 整數,預設值為5。 |
視窗大小 | 整數,預設值為2。 | |
阻尼係數 | 預設值為0.85。 | |
最大迭代數 | 預設值為100。 | |
收斂係數 | 預設值為0.000001。 | |
執行調優 | 核心數,預設自動分配 | 預設自動選擇。 |
每個核心的記憶體,預設自動分配 | 預設自動選擇。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name KeywordsExtraction
-DinputTableName=maple_test_keywords_basic_input
-DdocIdCol=docid -DdocContent=word
-DoutputTableName=maple_test_keywords_basic_output
-DtopN=19;
參數名稱 | 是否必選 | 描述 | 預設值 |
inputTableName | 是 | 輸入表。 | 無 |
inputTablePartitions | 否 | 輸入表中指定哪些分區參與訓練,格式為“Partition_name=value”。如果是多級格式為“name1=value1/name2=value2”。如果指定多個分區,中間用半形逗號(,)分隔。 | 選擇所有分區 |
outputTableName | 是 | 輸出表名。 | 無 |
docIdCol | 是 | 標識文章ID的列名,僅可指定一列。 | 無 |
docContent | 是 | Word列,僅可指定一列。 | 無 |
topN | 否 | 輸出前多少個關鍵詞,當關鍵詞個數小於全部詞個數時,全部輸出。 | 5 |
windowSize | 否 | TextRank演算法的視窗大小。 | 2 |
dumpingFactor | 否 | TextRank演算法的阻尼係數。 | 0.85 |
maxIter | 否 | TextRank演算法的最大迭代次數。 | 100 |
epsilon | 否 | TextRank演算法的收斂殘差閾值。 | 0.000001 |
lifecycle | 否 | 指定輸出表的生命週期。 | 無 |
coreNum | 否 | 節點個數。 | 自動計算 |
memSizePerCore | 否 | 單個節點記憶體大小,單位為MB。 | 自動計算 |
樣本
資料產生
輸入表需採用空格分詞,並過濾掉停用詞(如“的”、“地”、“得”、“了”、“個”)和所有標點符號。
docid:string
word:string
doc0
翼身融合 飛機 是 未來 航空 領域 發展 一個 新 方向 諸多 研究 機構 已經 開展 對翼身融合 飛機 研究 而 其 全自動 外形 最佳化 演算法 已 成為 新 研究 熱點 現有 成果 基礎 之上 分析 比較 常用 建模 求解 平台 使用 方式 及 特點 設計 編寫 翼身融合 飛機 外形 最佳化 幾何 建模 網格 劃分 流場 求解 外形 最佳化 模組 比 較 不同 演算法 間 優劣 實現 翼身融合 飛機 概念設計 中 外形 最佳化 幾何 建模 及 網格 產生 模組 實現 基於 超限 插值 網格 產生 演算法 基於 樣條 曲線 建模 方法 流場 求解 模組 包括 有限 差分 求解器 有限元 求解器和面元法 求解器 其中 有限 差分 求解器 主要 包括 基於 有限 差分法 勢流 數學 建模 基於 笛卡爾 網格 變 步長 差分 格式 推導 笛卡爾 網格 產生 索引 演算法 基於 笛卡爾 網格 諾 依曼 邊界條件 表達 形式 推導 實現 基於 有限 差分 求解器 二維 翼型 氣動 參數 計算 算例 有限元 求解器 主要 包括 基於 變分 原理 勢流 有限元 理論 建模 二維 有限元 庫塔 條件 運算式 推導 基於 最小 二乘 速度 求解 演算法 設計 基於 Gmsh 二維 帶尾跡 翼型 空間 網格 產生器 開發 實現 基於 有限元 求解器 二維 翼型 氣動 參數 計算 算例 面元法 求解器 主要 包括 基於 面元法 勢流 理論 建模 自動 尾跡 產生 演算法 設計 基於 面元法 三維 翼身融合 體 流場 求解器 開發 基於 布拉 修斯 平板 解 阻力 估算 演算法 設計 求解器 Fortran 語言 上 移 植 Python 和 Fortran 代碼 混編 基於 OpenMP 和 CUDA 並行 加速 演算法 設計 與 開發 實現 基於 面元法 求解器 三維 翼身融合 體 氣動 參數 計算 算例 外形 最佳化 模組 實 現了 基於 自由 形狀 變形 網格 變形 演算法 遺傳演算法 差分 進化 演算法 飛機 表面積 計算 演算法 基於 矩 積分 飛 機 體積 計算 演算法 開發 基於 VTK 資料 可視化 格式 工具
PAI命令
PAI -name KeywordsExtraction -DinputTableName=maple_test_keywords_basic_input -DdocIdCol=docid -DdocContent=word -DoutputTableName=maple_test_keywords_basic_output -DtopN=19;
輸出說明
docid
keywords
weight
doc0
基於
0.041306752223538405
doc0
演算法
0.03089845626854151
doc0
建模
0.021782865850562882
doc0
網格
0.020669749212693957
doc0
求解器
0.020245609506360847
doc0
飛機
0.019850761705313365
doc0
研究
0.014193732541852615
doc0
有限元
0.013831122054200538
doc0
求解
0.012924593244133104
doc0
模組
0.01280216562287212
doc0
推導
0.011907588923852495
doc0
外形
0.011505456605632607
doc0
差分
0.011477831662367547
doc0
勢流
0.010969269350293957
doc0
設計
0.010830986516637251
doc0
實現
0.010747536556701583
doc0
二維
0.010695570768457084
doc0
開發
0.010527342662670088
doc0
新
0.010096978306668461