DataWorks Data Map は、[メタデータ収集] 機能を提供します。この機能を使用すると、さまざまなデータソースから Data Map にメタデータを収集し、収集されたメタデータをまとめて管理し、Data Map でデータソース別に収集されたメタデータを表示できます。このトピックでは、各データソースから DataWorks にメタデータを収集するためのクローラーを作成する方法について説明します。
前提条件
データソースがワークスペースに追加されています。データソースを追加する方法については、データソース管理ディレクトリのトピックをご参照ください。
概要
ワークスペースにデータソースを追加すると、DataWorks はデータソースのメタデータを収集できます。Data Map でメタデータ収集機能を有効にすると、DataWorks は既存のすべてのメタデータを一度に収集し、毎日増分メタデータを収集し、完全メタデータと増分メタデータを Data Map に集約します。その後、Data Map でメタデータに対してさまざまな操作を実行できます。たとえば、データの概要を確認したり、カテゴリやグループ別にテーブルを管理したり、データ系列を表示したりできます。
デフォルトの収集プランがビジネス要件を満たしていない場合は、収集プランを変更できます。詳細については、メタデータクローラーの管理をご参照ください。
メタデータストレージに Data Lake Formation(DLF)を使用する MaxCompute データソースまたは E-MapReduce(EMR)データソースを DataStudio に関連付けると、システムは MaxCompute または EMR データソースからメタデータを収集するために使用されるクローラーの O&M 操作を自動的に実行します。クローラーを手動で管理する必要はありません。
サポートされているデータソースの種類とメタデータ収集方法
データソースの種類 | メタデータ収集方法 | Data Map でクローラーが使用可能かどうか | メタデータの更新適時性 | ||
テーブル/フィールド | パーティション | データ系列 | |||
MaxCompute |
| いいえ | 通常プロジェクト:リアルタイム 外部プロジェクト:T+1 | 中国本土のリージョン:リアルタイム 中国国外のリージョン:T+1 | T+1 |
EMR(メタデータストレージ方法:DLF) 説明 クラスターで EMR_HOOK が有効になっていることを確認してください。 |
| いいえ | リアルタイム | リアルタイム | リアルタイム |
EMR(メタデータストレージ方法:HMS または RDS) 説明 クラスターで EMR_HOOK が有効になっていることを確認してください。 |
| はい | リアルタイム | リアルタイム | リアルタイム |
Hologres |
| はい | カスタム収集プランによって異なります | サポートされていません | リアルタイム |
AnalyticDB for PostgreSQL |
| はい | カスタム収集プランによって異なります | サポートされていません | リアルタイム |
AnalyticDB for MySQL |
| はい | カスタム収集プランによって異なります | サポートされていません | リアルタイム 説明 AnalyticDB for MySQL インスタンスのデータ系列機能を有効にするには、チケットを送信する必要があります。 |
AnalyticDB for Spark |
| はい | リアルタイム | サポートされていません | リアルタイム |
CDH Hive |
| はい | カスタム収集プランによって異なります | リアルタイム | リアルタイム |
DLF | メタデータの自動収集 | いいえ | リアルタイム | リアルタイム | 該当なし |
MySQL、PostgreSQL、SQL Server、Oracle、Tablestore、StarRocks、ClickHouse などのその他のデータソースの種類 |
| はい | カスタム収集プランによって異なります | サポートされていません | サポートされていません |
制限事項
現在ログオンしているアカウントが属するワークスペースで構成したデータソースのメタデータのみを収集できます。別のワークスペースにあるデータソースのメタデータを収集する場合は、ワークスペース管理者に連絡して、アカウントをワークスペースにメンバーとして追加してもらいます。詳細については、ワークスペースメンバーを追加し、ロールを割り当てるをご参照ください。
ホワイトリストベースのアクセス制御が有効になっているデータソースのメタデータを収集する場合は、関連するワークスペースが存在するリージョンにある DataWorks の CIDR ブロックまたは IP アドレスをデータソースの IP アドレスホワイトリストに追加する必要があります。詳細については、メタデータ収集のための IP アドレスホワイトリストを構成するをご参照ください。
ワークスペースとは異なるリージョンにあるデータソースのメタデータを収集することはお勧めしません。リージョンをまたいでメタデータを収集する場合は、データソースを作成するときにパブリックネットワークアドレスを構成します。詳細については、データソースを追加および管理するをご参照ください。
MySQL メタデータクローラーを使用して OceanBase データソースのメタデータを収集することはできません。
手順
DataMap ページの左側のナビゲーションペインで、[メタデータの収集] をクリックします。
表示されるページで、[データソースの観点] から、関連付けられているデータソースの種類のメタデータクローラーを管理できます。データソースがない場合は、[データソースの作成] をクリックして [データソース] ページに移動し、SettingCenter でデータソースを作成できます。
メタデータクローラーを表示する
メタデータ収集の全体統計
[メタデータの収集] ページで、[データソースの観点] からメタデータ収集に関する全体的な情報を表示できます。クローラーが作成されたデータソースの数を表示できます。
メタデータ収集の詳細
データソースの種類のメタデータ収集の詳細を表示するには、データソースの種類の右上隅にある [管理] をクリックします。[クローラーが作成されたデータソース] タブで、ワークスペースを選択し、ワークスペース内のクローラーに関する次の情報を表示します:[ステータス]、[実行プラン]、[最終実行日時]、[最終実行時間/秒]、[平均実行時間/秒]、および最終実行中に見つかったテーブル。
メタデータクローラーを管理する
目的のデータソースの種類の右上隅にある [管理] をクリックします。[クローラーが作成されたデータソース] タブが表示されます。このタブでは、選択したデータソースの種類のデータソースのリスト、または選択したワークスペースでクローラーが作成されたデータソースのリストを表示できます。既存のクローラーに対して次の操作を実行できます。
メタデータクローラーを実行する
メタデータクローラーを手動で実行できます。メタデータクローラーを実行するには、[クローラーが作成されたデータソース] タブで目的のデータソースを見つけ、データソースの [アクション] 列の [実行] をクリックして、データソースのメタデータを一度収集します。
メタデータクローラーの収集プランを変更する
[クローラーが作成されたデータソース] タブに移動し、目的のデータソースを見つけ、データソースの [アクション] 列の [編集] をクリックして、メタデータクローラーの収集プランを変更します。収集プランには、[メタデータの手動収集] と [定期的なメタデータ収集] が含まれます。
[メタデータの手動収集]:目的のデータソースのメタデータクローラーを構成し、クローラーにこの収集プランを構成した後、クローラーを手動でトリガーしてデータソースのメタデータを Data Map に収集し、ビジネス要件に基づいて収集されたメタデータを更新する必要があります。
[定期的なメタデータ収集]:目的のデータソースのメタデータクローラーを構成し、クローラーにこの収集プランを構成した後、クローラーを手動でトリガーして実行する必要はありません。システムは、収集プランに基づいてデータソースのメタデータを Data Map に定期的に収集し、収集されたメタデータを更新します。
メタデータクローラーを削除する
[クローラーが作成されたデータソース] タブに移動し、目的のデータソースを見つけ、データソースの [アクション] 列の [削除] をクリックして、データソースのメタデータクローラーを削除します。データソースのメタデータクローラーを削除すると、データソースは [クローラーが作成されていないデータソース] タブに移動され、データソースのメタデータは収集されなくなります。
メタデータクローラーを作成する
データソースを追加するか、クラスターをワークスペースに登録した後、Data Map に移動してメタデータ収集機能を有効にできます。[クローラーが作成されたデータソース] タブで、データソースまたはクラスターのメタデータ収集に関する情報を表示できます。
データソースのメタデータクローラーを削除した後にデータソースのメタデータを再収集する場合は、[クローラーが作成されていないデータソース] タブでデータソースのメタデータクローラーを作成できます。
[クローラーが作成されていないデータソース] をクリックします。
目的のデータソースを見つけ、データソースの クローラーの作成[アクション] 列の 収集プランの構成 をクリックします。 ダイアログボックスで、パラメーターを構成します。
説明[収集プランの構成] ダイアログボックスで構成する必要があるパラメーターは、データソースの種類によって異なります。
パラメーターまたはセクション
説明
リソースグループ名
メタデータを収集するデータソースに接続されているリソースグループを選択します。ビジネス要件に基づいて、Data Map で次のリソースグループのいずれかを選択できます:
default
という名前のデフォルトのリソースグループスケジューリング用の専用リソースグループ
Data Integration 用の専用リソースグループ
サーバーレスリソースグループ
ネットワーク接続をテスト
リソースグループを選択した後、リソースグループとメタデータを収集するデータソース間のネットワーク接続を再テストする場合は、[ネットワーク接続をテスト] をクリックできます。[接続テストに失敗しました。] というメッセージが表示された場合は、次の手順を参照して原因を特定できます。
データソースでホワイトリストベースのアクセス制御が有効になっているかどうかを確認します。データソースからのメタデータ収集のために IP アドレスホワイトリストを構成する方法については、メタデータ収集のための IP アドレスホワイトリストを構成するをご参照ください。
データソースでホワイトリストベースのアクセス制御が有効になっていない場合は、リソースグループとデータソース間のネットワーク接続を確立できます。詳細については、リソースグループのネットワーク接続と操作をご参照ください。
収集プラン
メタデータ収集プラン。有効な値:[手動クロール]、[毎月]、[毎週]、[毎日]、および [毎時]。生成される収集プランは、収集サイクルによって異なります。システムは、指定した収集サイクルに基づいてデータソースからメタデータを収集します。
手動クロール:クローラーを手動でトリガーしてデータソースのメタデータを Data Map に収集し、ビジネス要件に基づいて収集されたメタデータを更新できます。
毎月:システムは、毎月の特定の日に指定された時点でデータソースのメタデータを自動的に 1 回収集します。
重要特定の月に 29 日、30 日、または 31 日がない場合があります。月の最後の数日を選択しないことをお勧めします。
毎週:システムは、毎週の特定の日に指定された時点でデータソースのメタデータを自動的に 1 回収集します。
[時間] パラメーターを構成しない場合、システムは毎週の特定の日の 00:00:00 にデータソースのメタデータを自動的に 1 回収集します。
毎日:システムは、毎日の指定された時点でデータソースのメタデータを自動的に 1 回収集します。
毎時:システムは、毎時の
N
分にデータソースのメタデータを自動的に 1 回収集します。
クローラーの構成が正しいことを確認し、[確認] をクリックします。
システムは、構成された収集プランに基づいてデータソースのメタデータを収集します。[手動クロール] を選択した場合は、[クローラーが作成されたデータソース] タブで目的のデータソースを見つけ、データソースの [アクション] 列の [実行] をクリックして、ビジネス要件に基づいてデータソースのメタデータを手動で収集できます。
次のステップ
メタデータが収集された後、Data Map でメタデータに対してさまざまな操作を実行できます。たとえば、データの概要を確認したり、カテゴリやグループ別にテーブルを管理したり、データ系列を表示したりできます。詳細については、リソース情報を表示する、テーブルを検索する、および ビジネスの観点からのテーブル管理:データアルバムをご参照ください。