このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供するキーワード抽出コンポーネントについて説明します。
キーワード抽出は、自然言語処理における重要な技術の1つである。 ドキュメントからキーワードを抽出するために使用されます。 キーワード抽出アルゴリズムは、PageRankアルゴリズムのバリエーションであるTextRankに基づいています。 このキーワード抽出アルゴリズムは、特定の単語間の関係を利用してネットワークを構築し、各単語の重要度を計算し、重みの大きい単語をキーワードとして決定する。
キーワード抽出プロセスには、次の手順が含まれます。
生のコーパスの準備
トークン化
単語ベースのフィルタリング
キーワード抽出
コンポーネントの設定
次のいずれかの方法を使用して、キーワード抽出コンポーネントを設定できます。
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、キーワード抽出コンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールド設定 | マーク付きドキュメントIDの列 | ドキュメントID列の名前。 |
ワード分割結果のマーク付きドキュメント | マークされたドキュメントの単語分割結果。 | |
パラメーター設定 | 出力最初のNキーワード | 提供される上位N個のキーワードの数。 値は整数でなければなりません。 既定値:5 |
ウィンドウサイズ | ウィンドウのサイズ。 値は整数でなければなりません。 デフォルト値:2 | |
ダンピング係数 | ダンピング係数。 デフォルト値: 0.85 | |
最大イテレーション | 反復の最大数。 デフォルト値:100 | |
収束係数 | 収束係数。 デフォルト値: 0.000001 | |
チューニング | コア。 デフォルトで自動割り当てされます。 | コアの数。 デフォルトでは、システムが値を決定します。 |
コアあたりのメモリサイズ。 デフォルトで自動割り当てされます。 | 各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。
PAI -name KeywordsExtraction
-DinputTableName=maple_test_keywords_basic_input
-DdocIdCol=docid -DdocContent=word
-DoutputTableName=maple_test_keywords_basic_output
-DtopN=19;
パラメーター | 必須 | 説明 | デフォルト値 |
inputTableName | 可 | 入力テーブルの名前。 | デフォルト値なし |
inputTablePartitions | 不可 | Partition_name=valueの形式で、トレーニング用の入力テーブルから選択されたパーティション。 複数のパーティションを指定するには、name1=value1/name2=value2の形式を使用します。 複数のパーティションを指定する場合は、コンマ (,) で区切ります。 | すべてのパーティション |
outputTableName | 可 | 出力テーブルの名前。 | デフォルト値なし |
docIdCol | 可 | ドキュメントID列の名前。 指定できる列は1つだけです。 | デフォルト値なし |
docContent | 可 | 単語列の名前。 指定できる列は1つだけです。 | デフォルト値なし |
topN | 不可 | 提供される上位N個のキーワードの数。 パラメータの値がキーワードの総数より大きい場合、すべてのキーワードが提供されます。 | 5 |
windowSize | 不可 | TextRankアルゴリズムのウィンドウサイズ。 | 2 |
ダンピングファクター | 不可 | TextRankアルゴリズムの減衰係数。 | 0.85 |
maxIter | 不可 | TextRankアルゴリズムの最大反復回数。 | 100 |
イプシロン | 不可 | TextRankアルゴリズムの収束残差しきい値。 | 0.000001 |
ライフサイクル | 不可 | 出力テーブルのライフサイクル。 | デフォルト値なし |
coreNum | 不可 | コアの数。 | システムによって決定される |
memSizePerCore | 不可 | 各コアのメモリサイズ。 単位:MB。 | システムによって決定される |
例:
入力データ
入力テーブル内の単語をスペースで区切り、「of」などのストップワードとすべての句読点を除外します。
docid: 文字列
word: 文字列
doc0
混合翼体航空機は、航空分野における将来の発展のための新しい方向性です中国内外の多くの研究機関は、完全に自動化された形状最適化アルゴリズムが新しいホットトピックになっている一方で、混合翼体航空機の研究を実施しました中国内外の既存の研究成果に基づいて、一般的なモデリングおよびフローソルバーツールが分析および比較されています形状最適化モジュールが設計されました異なるアルゴリズム間の長所と短所を比較して、概念設計段階で混合翼体航空機の最適化された形状を達成しました幾何学的モデリングとグリッド生成モジュールは、超有限補間アルゴリズムとスプラインベースのグリッド生成方法に基づいて実現されますフローソルバーモジュールには、有限差分ソルバー、有限要素ソルバー、およびパネル法ソルバーが含まれます。デカルト格子ベースの可変ステップ長差スキームの潜在的な流れの導出デカルト格子生成およびインデックス付けアルゴリズムデカルト格子ベースのノイマン境界条件式形式導出は、有限要素差ソルバに基づいて計算される。2次元翼形部の空力パラメータは、有限要素理論の変分原理に基づく潜在的な流れモデリングを含む。次元有限要素Kutta条件付き最小二乗速度解法アルゴリズムGmshベースの伴流設計付き翼形部の2次元フィールドグリッドジェネレータ2次元翼形部の空力パラメータは、有限要素ソルバに基づいて計算される。パネル法ソルバは、モデリングと自動伴流生成を含み、Fortran言語で実装されたBlasiusソリューションソルバに基づく混合翼体抗力推定の3次元フローソルバの設計pythonとFortran OpenMPとCUDAベースの加速アルゴリズムの混合コンパイル3次元翼体の空力パラメータは、パネル法ソルバーに基づいて計算されます形状最適化モジュールには、自由形式変形アルゴリズム遺伝的アルゴリズム微分進化アルゴリズムが含まれています航空機の表面積計算アルゴリズムは、モーメント統合アルゴリズムに基づいています航空機計算アルゴリズムの体積は、VKTデータ視覚化形式ツールに基づいています
PAIコマンド
PAI -name KeywordsExtraction -DinputTableName=maple_test_keywords_basic_input -DdocIdCol=docid -DdocContent=word -DoutputTableName=maple_test_keywords_basic_output -DtopN=19;
アウトプットの説明
docid
キーワード
重量
doc0
based on
0.041306752223538405
doc0
algorithm
0.03089845626854151
doc0
modeling
0.021782865850562882
doc0
grid
0.020669749212693957
doc0
solver
0.020245609506360847
doc0
aircraft
0.019850761705313365
doc0
research
0.014193732541852615
doc0
finite element
0.013831122054200538
doc0
solving
0.012924593244133104
doc0
module
0.01280216562287212
doc0
derivation
0.011907588923852495
doc0
shape
0.011505456605632607
doc0
difference
0.011477831662367547
doc0
flow
0.010969269350293957
doc0
design
0.010830986516637251
doc0
implementation
0.010747536556701583
doc0
two-dimensional
0.010695570768457084
doc0
development
0.010527342662670088
doc0
new
0.010096978306668461