すべてのプロダクト
Search
ドキュメントセンター

DataWorks:メタデータ収集

最終更新日:Jan 11, 2025

DataWorks Data Map は、[メタデータ収集] 機能を提供します。この機能を使用すると、さまざまなデータソースから Data Map にメタデータを収集し、収集されたメタデータをまとめて管理し、Data Map でデータソース別に収集されたメタデータを表示できます。このトピックでは、各データソースから DataWorks にメタデータを収集するためのクローラーを作成する方法について説明します。

前提条件

データソースがワークスペースに追加されています。データソースを追加する方法については、データソース管理ディレクトリのトピックをご参照ください。

概要

ワークスペースにデータソースを追加すると、DataWorks はデータソースのメタデータを収集できます。Data Map でメタデータ収集機能を有効にすると、DataWorks は既存のすべてのメタデータを一度に収集し、毎日増分メタデータを収集し、完全メタデータと増分メタデータを Data Map に集約します。その後、Data Map でメタデータに対してさまざまな操作を実行できます。たとえば、データの概要を確認したり、カテゴリやグループ別にテーブルを管理したり、データ系列を表示したりできます。

説明
  • デフォルトの収集プランがビジネス要件を満たしていない場合は、収集プランを変更できます。詳細については、メタデータクローラーの管理をご参照ください。

  • メタデータストレージに Data Lake Formation(DLF)を使用する MaxCompute データソースまたは E-MapReduce(EMR)データソースを DataStudio に関連付けると、システムは MaxCompute または EMR データソースからメタデータを収集するために使用されるクローラーの O&M 操作を自動的に実行します。クローラーを手動で管理する必要はありません。

サポートされているデータソースの種類とメタデータ収集方法

データソースの種類

メタデータ収集方法

Data Map でクローラーが使用可能かどうか

メタデータの更新適時性

テーブル/フィールド

パーティション

データ系列

MaxCompute

  • DataStudio とデータソースを関連付ける

  • メタデータの自動収集

いいえ

通常プロジェクト:リアルタイム

外部プロジェクト:T+1

中国本土のリージョン:リアルタイム

中国国外のリージョン:T+1

T+1

EMR(メタデータストレージ方法:DLF)

説明

クラスターで EMR_HOOK が有効になっていることを確認してください。

  • SettingCenter にオープンソースクラスターを登録する

  • メタデータの自動収集

いいえ

リアルタイム

リアルタイム

リアルタイム

EMR(メタデータストレージ方法:HMS または RDS)

説明

クラスターで EMR_HOOK が有効になっていることを確認してください。

  • SettingCenter にオープンソースクラスターを登録する

  • メタデータの自動収集

はい

リアルタイム

リアルタイム

リアルタイム

Hologres

  • DataStudio とデータソースを関連付ける

  • メタデータの手動収集

はい

カスタム収集プランによって異なります

サポートされていません

リアルタイム

AnalyticDB for PostgreSQL

  • DataStudio とデータソースを関連付ける

  • メタデータの手動収集

はい

カスタム収集プランによって異なります

サポートされていません

リアルタイム

AnalyticDB for MySQL

  • DataStudio とデータソースを関連付ける

  • メタデータの手動収集

はい

カスタム収集プランによって異なります

サポートされていません

リアルタイム

説明

AnalyticDB for MySQL インスタンスのデータ系列機能を有効にするには、チケットを送信する必要があります。

AnalyticDB for Spark

  • DataStudio とコンピューティングリソースを関連付ける

    説明

    AnalyticDB for Spark コンピューティングリソースは、Data Studio(新バージョン)とのみ関連付けることができます。

  • メタデータの手動収集

    説明

    AnalyticDB for Spark と AnalyticDB for MySQL は、メタデータ収集に同じエントリポイントを使用します。

はい

リアルタイム

サポートされていません

リアルタイム

CDH Hive

  • SettingCenter にオープンソースクラスターを登録する

  • メタデータの自動収集

はい

カスタム収集プランによって異なります

リアルタイム

リアルタイム

DLF

メタデータの自動収集

いいえ

リアルタイム

リアルタイム

該当なし

MySQL、PostgreSQL、SQL Server、Oracle、Tablestore、StarRocks、ClickHouse などのその他のデータソースの種類

  • SettingCenter にデータソースを追加する

  • メタデータの手動収集

はい

カスタム収集プランによって異なります

サポートされていません

サポートされていません

制限事項

  • 現在ログオンしているアカウントが属するワークスペースで構成したデータソースのメタデータのみを収集できます。別のワークスペースにあるデータソースのメタデータを収集する場合は、ワークスペース管理者に連絡して、アカウントをワークスペースにメンバーとして追加してもらいます。詳細については、ワークスペースメンバーを追加し、ロールを割り当てるをご参照ください。

  • ホワイトリストベースのアクセス制御が有効になっているデータソースのメタデータを収集する場合は、関連するワークスペースが存在するリージョンにある DataWorks の CIDR ブロックまたは IP アドレスをデータソースの IP アドレスホワイトリストに追加する必要があります。詳細については、メタデータ収集のための IP アドレスホワイトリストを構成するをご参照ください。

  • ワークスペースとは異なるリージョンにあるデータソースのメタデータを収集することはお勧めしません。リージョンをまたいでメタデータを収集する場合は、データソースを作成するときにパブリックネットワークアドレスを構成します。詳細については、データソースを追加および管理するをご参照ください。

  • MySQL メタデータクローラーを使用して OceanBase データソースのメタデータを収集することはできません。

手順

  1. DataWorks コンソールで DataMap ページに移動します。

  2. DataMap ページの左側のナビゲーションペインで、[メタデータの収集] をクリックします。

    表示されるページで、[データソースの観点] から、関連付けられているデータソースの種類のメタデータクローラーを管理できます。データソースがない場合は、[データソースの作成] をクリックして [データソース] ページに移動し、SettingCenter でデータソースを作成できます。

メタデータクローラーを表示する

  • メタデータ収集の全体統計

    [メタデータの収集] ページで、[データソースの観点] からメタデータ収集に関する全体的な情報を表示できます。クローラーが作成されたデータソースの数を表示できます。整体统计

  • メタデータ収集の詳細

    データソースの種類のメタデータ収集の詳細を表示するには、データソースの種類の右上隅にある [管理] をクリックします。[クローラーが作成されたデータソース] タブで、ワークスペースを選択し、ワークスペース内のクローラーに関する次の情報を表示します:[ステータス][実行プラン][最終実行日時][最終実行時間/秒][平均実行時間/秒]、および最終実行中に見つかったテーブル。明细列表

メタデータクローラーを管理する

目的のデータソースの種類の右上隅にある [管理] をクリックします。[クローラーが作成されたデータソース] タブが表示されます。このタブでは、選択したデータソースの種類のデータソースのリスト、または選択したワークスペースでクローラーが作成されたデータソースのリストを表示できます。既存のクローラーに対して次の操作を実行できます。

メタデータクローラーを実行する

メタデータクローラーを手動で実行できます。メタデータクローラーを実行するには、[クローラーが作成されたデータソース] タブで目的のデータソースを見つけ、データソースの [アクション] 列の [実行] をクリックして、データソースのメタデータを一度収集します。

メタデータクローラーの収集プランを変更する

[クローラーが作成されたデータソース] タブに移動し、目的のデータソースを見つけ、データソースの [アクション] 列の [編集] をクリックして、メタデータクローラーの収集プランを変更します。収集プランには、[メタデータの手動収集][定期的なメタデータ収集] が含まれます。

  • [メタデータの手動収集]:目的のデータソースのメタデータクローラーを構成し、クローラーにこの収集プランを構成した後、クローラーを手動でトリガーしてデータソースのメタデータを Data Map に収集し、ビジネス要件に基づいて収集されたメタデータを更新する必要があります。

  • [定期的なメタデータ収集]:目的のデータソースのメタデータクローラーを構成し、クローラーにこの収集プランを構成した後、クローラーを手動でトリガーして実行する必要はありません。システムは、収集プランに基づいてデータソースのメタデータを Data Map に定期的に収集し、収集されたメタデータを更新します。

メタデータクローラーを削除する

[クローラーが作成されたデータソース] タブに移動し、目的のデータソースを見つけ、データソースの [アクション] 列の [削除] をクリックして、データソースのメタデータクローラーを削除します。データソースのメタデータクローラーを削除すると、データソースは [クローラーが作成されていないデータソース] タブに移動され、データソースのメタデータは収集されなくなります。

メタデータクローラーを作成する

データソースを追加するか、クラスターをワークスペースに登録した後、Data Map に移動してメタデータ収集機能を有効にできます。[クローラーが作成されたデータソース] タブで、データソースまたはクラスターのメタデータ収集に関する情報を表示できます。

データソースのメタデータクローラーを削除した後にデータソースのメタデータを再収集する場合は、[クローラーが作成されていないデータソース] タブでデータソースのメタデータクローラーを作成できます。

  1. [クローラーが作成されていないデータソース] をクリックします。

  2. 目的のデータソースを見つけ、データソースの クローラーの作成[アクション] 列の 収集プランの構成 をクリックします。 ダイアログボックスで、パラメーターを構成します。

    説明

    [収集プランの構成] ダイアログボックスで構成する必要があるパラメーターは、データソースの種類によって異なります。

    配置采集计划

    パラメーターまたはセクション

    説明

    リソースグループ名

    メタデータを収集するデータソースに接続されているリソースグループを選択します。ビジネス要件に基づいて、Data Map で次のリソースグループのいずれかを選択できます:

    • default という名前のデフォルトのリソースグループ

    • スケジューリング用の専用リソースグループ

    • Data Integration 用の専用リソースグループ

    • サーバーレスリソースグループ

    ネットワーク接続をテスト

    リソースグループを選択した後、リソースグループとメタデータを収集するデータソース間のネットワーク接続を再テストする場合は、[ネットワーク接続をテスト] をクリックできます。[接続テストに失敗しました。] というメッセージが表示された場合は、次の手順を参照して原因を特定できます。

    収集プラン

    メタデータ収集プラン。有効な値:[手動クロール][毎月][毎週][毎日]、および [毎時]。生成される収集プランは、収集サイクルによって異なります。システムは、指定した収集サイクルに基づいてデータソースからメタデータを収集します。

    • 手動クロール:クローラーを手動でトリガーしてデータソースのメタデータを Data Map に収集し、ビジネス要件に基づいて収集されたメタデータを更新できます。

    • 毎月:システムは、毎月の特定の日に指定された時点でデータソースのメタデータを自動的に 1 回収集します。

      重要

      特定の月に 29 日、30 日、または 31 日がない場合があります。月の最後の数日を選択しないことをお勧めします。

    • 毎週:システムは、毎週の特定の日に指定された時点でデータソースのメタデータを自動的に 1 回収集します。

      [時間] パラメーターを構成しない場合、システムは毎週の特定の日の 00:00:00 にデータソースのメタデータを自動的に 1 回収集します。

    • 毎日:システムは、毎日の指定された時点でデータソースのメタデータを自動的に 1 回収集します。

    • 毎時:システムは、毎時の N 分にデータソースのメタデータを自動的に 1 回収集します。

  3. クローラーの構成が正しいことを確認し、[確認] をクリックします。

    システムは、構成された収集プランに基づいてデータソースのメタデータを収集します。[手動クロール] を選択した場合は、[クローラーが作成されたデータソース] タブで目的のデータソースを見つけ、データソースの [アクション] 列の [実行] をクリックして、ビジネス要件に基づいてデータソースのメタデータを手動で収集できます。

次のステップ

メタデータが収集された後、Data Map でメタデータに対してさまざまな操作を実行できます。たとえば、データの概要を確認したり、カテゴリやグループ別にテーブルを管理したり、データ系列を表示したりできます。詳細については、リソース情報を表示するテーブルを検索する、および ビジネスの観点からのテーブル管理:データアルバムをご参照ください。