すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:キーワード抽出

最終更新日:Jul 22, 2024

このトピックでは、Machine Learning Designer (旧称Machine Learning Studio) が提供するキーワード抽出コンポーネントについて説明します。

キーワード抽出は、自然言語処理における重要な技術の1つである。 ドキュメントからキーワードを抽出するために使用されます。 キーワード抽出アルゴリズムは、PageRankアルゴリズムのバリエーションであるTextRankに基づいています。 このキーワード抽出アルゴリズムは、特定の単語間の関係を利用してネットワークを構築し、各単語の重要度を計算し、重みの大きい単語をキーワードとして決定する。

キーワード抽出プロセスには、次の手順が含まれます。

  1. 生のコーパスの準備

  2. トークン化

  3. 単語ベースのフィルタリング

  4. キーワード抽出

コンポーネントの設定

次のいずれかの方法を使用して、キーワード抽出コンポーネントを設定できます。

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Platform for AI (PAI) のMachine Learning Designerのパイプラインページで、キーワード抽出コンポーネントのパラメーターを設定できます。 Machine Learning Designerは、以前はMachine Learning Studioとして知られていました。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールド設定

マーク付きドキュメントIDの列

ドキュメントID列の名前。

ワード分割結果のマーク付きドキュメント

マークされたドキュメントの単語分割結果。

パラメーター設定

出力最初のNキーワード

提供される上位N個のキーワードの数。 値は整数でなければなりません。 既定値:5

ウィンドウサイズ

ウィンドウのサイズ。 値は整数でなければなりません。 デフォルト値:2

ダンピング係数

ダンピング係数。 デフォルト値: 0.85

最大イテレーション

反復の最大数。 デフォルト値:100

収束係数

収束係数。 デフォルト値: 0.000001

チューニング

コア。 デフォルトで自動割り当てされます。

コアの数。 デフォルトでは、システムが値を決定します。

コアあたりのメモリサイズ。 デフォルトで自動割り当てされます。

各コアのメモリサイズ。 デフォルトでは、システムが値を決定します。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQLスクリプト」をご参照ください。

PAI -name KeywordsExtraction      
    -DinputTableName=maple_test_keywords_basic_input    
    -DdocIdCol=docid -DdocContent=word    
    -DoutputTableName=maple_test_keywords_basic_output    
    -DtopN=19;

パラメーター

必須

説明

デフォルト値

inputTableName

入力テーブルの名前。

デフォルト値なし

inputTablePartitions

不可

Partition_name=valueの形式で、トレーニング用の入力テーブルから選択されたパーティション。 複数のパーティションを指定するには、name1=value1/name2=value2の形式を使用します。 複数のパーティションを指定する場合は、コンマ (,) で区切ります。

すべてのパーティション

outputTableName

出力テーブルの名前。

デフォルト値なし

docIdCol

ドキュメントID列の名前。 指定できる列は1つだけです。

デフォルト値なし

docContent

単語列の名前。 指定できる列は1つだけです。

デフォルト値なし

topN

不可

提供される上位N個のキーワードの数。 パラメータの値がキーワードの総数より大きい場合、すべてのキーワードが提供されます。

5

windowSize

不可

TextRankアルゴリズムのウィンドウサイズ。

2

ダンピングファクター

不可

TextRankアルゴリズムの減衰係数。

0.85

maxIter

不可

TextRankアルゴリズムの最大反復回数。

100

イプシロン

不可

TextRankアルゴリズムの収束残差しきい値。

0.000001

ライフサイクル

不可

出力テーブルのライフサイクル。

デフォルト値なし

coreNum

不可

コアの数。

システムによって決定される

memSizePerCore

不可

各コアのメモリサイズ。 単位:MB。

システムによって決定される

例:

  1. 入力データ

    入力テーブル内の単語をスペースで区切り、「of」などのストップワードとすべての句読点を除外します。

    docid: 文字列

    word: 文字列

    doc0

    混合翼体航空機は、航空分野における将来の発展のための新しい方向性です中国内外の多くの研究機関は、完全に自動化された形状最適化アルゴリズムが新しいホットトピックになっている一方で、混合翼体航空機の研究を実施しました中国内外の既存の研究成果に基づいて、一般的なモデリングおよびフローソルバーツールが分析および比較されています形状最適化モジュールが設計されました異なるアルゴリズム間の長所と短所を比較して、概念設計段階で混合翼体航空機の最適化された形状を達成しました幾何学的モデリングとグリッド生成モジュールは、超有限補間アルゴリズムとスプラインベースのグリッド生成方法に基づいて実現されますフローソルバーモジュールには、有限差分ソルバー、有限要素ソルバー、およびパネル法ソルバーが含まれます。デカルト格子ベースの可変ステップ長差スキームの潜在的な流れの導出デカルト格子生成およびインデックス付けアルゴリズムデカルト格子ベースのノイマン境界条件式形式導出は、有限要素差ソルバに基づいて計算される。2次元翼形部の空力パラメータは、有限要素理論の変分原理に基づく潜在的な流れモデリングを含む。次元有限要素Kutta条件付き最小二乗速度解法アルゴリズムGmshベースの伴流設計付き翼形部の2次元フィールドグリッドジェネレータ2次元翼形部の空力パラメータは、有限要素ソルバに基づいて計算される。パネル法ソルバは、モデリングと自動伴流生成を含み、Fortran言語で実装されたBlasiusソリューションソルバに基づく混合翼体抗力推定の3次元フローソルバの設計pythonとFortran OpenMPとCUDAベースの加速アルゴリズムの混合コンパイル3次元翼体の空力パラメータは、パネル法ソルバーに基づいて計算されます形状最適化モジュールには、自由形式変形アルゴリズム遺伝的アルゴリズム微分進化アルゴリズムが含まれています航空機の表面積計算アルゴリズムは、モーメント統合アルゴリズムに基づいています航空機計算アルゴリズムの体積は、VKTデータ視覚化形式ツールに基づいています

  2. PAIコマンド

    PAI -name KeywordsExtraction      
        -DinputTableName=maple_test_keywords_basic_input    
        -DdocIdCol=docid -DdocContent=word    
        -DoutputTableName=maple_test_keywords_basic_output    
        -DtopN=19;
  3. アウトプットの説明

    docid

    キーワード

    重量

    doc0

    based on

    0.041306752223538405

    doc0

    algorithm

    0.03089845626854151

    doc0

    modeling

    0.021782865850562882

    doc0

    grid

    0.020669749212693957

    doc0

    solver

    0.020245609506360847

    doc0

    aircraft

    0.019850761705313365

    doc0

    research

    0.014193732541852615

    doc0

    finite element

    0.013831122054200538

    doc0

    solving

    0.012924593244133104

    doc0

    module

    0.01280216562287212

    doc0

    derivation

    0.011907588923852495

    doc0

    shape

    0.011505456605632607

    doc0

    difference

    0.011477831662367547

    doc0

    flow

    0.010969269350293957

    doc0

    design

    0.010830986516637251

    doc0

    implementation

    0.010747536556701583

    doc0

    two-dimensional

    0.010695570768457084

    doc0

    development

    0.010527342662670088

    doc0

    new

    0.010096978306668461