DataWorks のデータマップにおけるメタデータ収集機能を使用すると、さまざまなデータソースのメタデータを一元管理できます。収集されたメタデータはデータマップで可視化されます。このトピックでは、クローラーを作成してメタデータを収集する方法について説明します。
概要
メタデータ収集は、エンタープライズレベルのデータマップを構築し、データ資産を管理するために不可欠です。クローラーを使用して、同じリージョン内の複数のワークスペースにまたがる DataWorks データソース (MaxCompute、Hologres、MySQL、CDH Hive など) から、技術メタデータ (データベース、テーブル、カラム)、データリネージ、パーティション情報を自動的に抽出します。このメタデータは DataWorks のデータマップに集約され、統一されたデータビューを提供します。
メタデータ収集により、以下のことが可能になります:
統一されたデータビューの構築:データサイロを解消し、マルチソースの異種メタデータを一元管理します。
データディスカバリーと検索の実現:データコンシューマーが必要なデータを迅速かつ正確に見つけられるようにします。
フルリンクのリネージ分析:データの発生源と行き先を追跡し、影響分析やトラブルシューティングを容易にします。
データガバナンスの強化:完全なメタデータに基づいて、データ分類、等級付け、アクセス制御、品質モニタリング、ライフサイクル管理を実行します。
課金
デフォルトでは、各収集タスクは 0.25 CU × タスク実行時間 を消費します。詳細については、「リソースグループ料金」をご参照ください。収集が成功するたびに、スケジューリングインスタンスが 1 つ生成されます。詳細については、「スケジューリングインスタンス料金」をご参照ください。
制限事項
データソースがホワイトリストによるアクセス制御を使用している場合、データベースのホワイトリストを設定する必要があります。詳細については、「メタデータ収集のホワイトリスト」をご参照ください。
リージョン間のメタデータ収集は推奨されません。DataWorks とデータソースが同じリージョンにあることを確認してください。リージョンをまたいでメタデータを収集するには、データソースを作成する際にパブリック IP アドレスを使用します。詳細については、「データソース管理」をご参照ください。
MySQL メタデータクローラーは OceanBase データソースをサポートしていません。
SSL が有効になっている AnalyticDB for MySQL データソースでは、メタデータ収集はサポートされていません。
エントリーポイント
DataWorks コンソールにログインします。上部のナビゲーションバーで、対象のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで データマップへ をクリックします。
左側のナビゲーションウィンドウで、
をクリックしてメタデータ収集ページに移動します。
組み込みクローラー
組み込みクローラーは事前に設定されており、DataWorks によってほぼリアルタイムで自動的に実行されます。DataWorks と統合されたコアメタデータを収集します。ユーザーが作成する必要はなく、収集範囲を管理するだけです。
データマップで対象のテーブルが見つからない場合は、 に移動して、手動でテーブルを同期してください。
MaxCompute デフォルトクローラー
このクローラーは、アカウント内の MaxCompute プロジェクトからメタデータを収集します。詳細ページで Modify Data Scope を使用してプロジェクトを選択し、Permission Configurations を使用してテナント内でのメタデータの可視性を設定します。
メタデータ収集ページの Built-in セクションで、MaxCompute デフォルトクローラー カードを見つけ、Details をクリックします。
MaxCompute デフォルトクローラーの詳細ページには、Basic Information タブと Data Scope タブが含まれています。
Basic Information:クローラーの基本属性 (収集タイプやモードなど) を表示します。この情報は読み取り専用です。
Data Scope:収集する MaxCompute プロジェクトを管理します。
収集範囲の変更:
Data Scope をクリックし、Modify Data Scope をクリックします。
ダイアログボックスで、収集する MaxCompute プロジェクトを選択または選択解除します。
重要デフォルトの範囲には、現在のテナント配下で、現在のリージョンのワークスペースにバインドされているすべての MaxCompute プロジェクトが含まれます。範囲が変更されると、データマップではその範囲内のメタデータオブジェクトのみが可視になります。選択されていないメタデータは不可視になります。
OK をクリックして変更を保存します。
メタデータの可視性の設定:
Data Scope リストで対象のプロジェクトを見つけ、Permission Configurations 列の Actions をクリックします。
データガバナンスの要件に基づいて可視性ポリシーを選択します:
Public Within Tenant:テナント内のすべてのメンバーがこのプロジェクトのメタデータを検索および表示できます。
Only members in the associated workspace can search and view.:特定のワークスペースのメンバーのみがこのプロジェクトのメタデータにアクセスでき、データの分離を保証します。
DLF デフォルトクローラー
DLF メタデータのリアルタイム収集をサポートするには、DLF コンソールで Service Linked Role の AliyunServiceRoleForDataworksOnEmr に Data Reader 権限を付与する必要があります。
DLF デフォルトクローラーは、アカウント内の Data Lake Formation (DLF) からメタデータを収集します。
メタデータ収集ページの Built-in セクションで、DLF デフォルトクローラー カードを見つけ、Details をクリックして基本情報を表示します。
Data Scope タブをクリックして、収集範囲に含まれる DLF カタログのリストと、そのテーブル数を表示します。
デフォルトでは、アクセス可能なすべてのカタログ (DLF および DLF-Legacy バージョンを含む) が収集されます。
カスタムクローラー
カスタムクローラーは、環境やエンジンを横断した統一的なメタデータ管理を提供します。
従来のデータソース向け
Hologres、StarRocks、MySQL、Oracle、CDH Hive などの従来の構造化または半構造化データソース向けのカスタムクローラーをサポートします。システムは物理的なデータベーステーブル構造を解析し、フィールド属性、インデックス、パーティションなどのメタデータを自動的に抽出・同期します。
メタデータ型データソース (Catalog) 向け
Paimon Catalog など、DLF で管理されていない自己宣言型のネイティブなレイクフォーマットメタデータに対して、メタデータ型データソースを直接収集することをサポートします。
カスタムクローラーの作成
メタデータ収集ページのカスタムクローラーリストセクションで、メタデータ収集の作成 をクリックします。
収集タイプの選択:タイプ選択ページで、収集対象のデータソースタイプ (Hologres や StarRocks など) を選択します。
基本情報とリソースグループの設定:
Basic Configurations:
ワークスペースの選択:データソースを含むワークスペースを選択します。
Select Data Source:ドロップダウンリストから作成済みの対象データソースを選択します。選択後、システムは自動的にデータソースの詳細を表示します。
Name:後で識別できるように、クローラーの名前を入力します。デフォルト名はデータソース名と同じです。
Resource Group Configuration:
Resource Group:収集タスクを実行するリソースグループを選択します。
Test Network Connectivity:このステップは重要です。Test Network Connectivity をクリックして、リソースグループがデータソースに正常にアクセスできることを確認します。
重要データソースにホワイトリスト制限があるか確認してください。ホワイトリストによるアクセス制御が有効なメタデータを収集する必要がある場合は、「ネットワーク接続ソリューションの概要」および「ホワイトリストの設定」を参照して、ホワイトリストの権限を設定してください。
データソースにホワイトリスト制限がない場合は、「ネットワーク接続とリソースグループの操作」を参照してネットワーク接続を設定してください。
接続テストがエラー
backend service call failed: test connectivity failed.not support data typeで失敗した場合は、テクニカルサポートに連絡してリソースグループをアップグレードしてください。
メタデータ収集の設定:
Collection Scope:収集するデータベース (Database/Schema) を定義します。データソースがデータベース単位の場合、対応するデータベースがデフォルトで選択されます。データソース外の追加のデータベースを選択することもできます。
重要1 つのデータベースは 1 つのクローラーでのみ設定できます。データベースが選択できない場合、それはすでに別のクローラーによって収集されています。
収集範囲を狭めると、範囲外のメタデータはデータマップで検索できなくなります。
インテリジェント拡張設定と収集計画の設定:
インテリジェント拡張設定 (ベータ版):
AI 収集説明:有効にすると、メタデータ収集後にシステムが LLM を使用してテーブルとフィールドのビジネス説明を自動的に生成し、メタデータの可読性と使いやすさを大幅に向上させます。収集完了後、データマップのテーブルオブジェクト詳細ページで AI が生成した情報 (テーブルの備考やフィールドの説明など) を表示できます。
Collection Plan:
Trigger Mode:手動または定期を選択します。
手動:クローラーは手動でトリガーされた場合にのみ実行されます。これは、1 回限りまたはオンデマンドの収集に適用されます。
定期:定期タスク (月次、日次、週次、時次など) を設定します。システムは定期的にメタデータを自動更新します。
分単位の定期タスクを設定するには、時次収集を選択し、すべての分オプションをチェックして 5 分間隔のタスクを実現します。
重要定期収集は本番環境のデータソースでのみサポートされています。
設定の保存:Save または Save and Run をクリックして、クローラーの作成を完了します。
カスタムクローラーの管理
クローラーが作成されると、カスタムリストに表示されます。以下の管理操作を実行できます:
リスト操作:リスト内で、クローラーを直接 Run、Stop、または Delete できます。上部の Filter および Search 機能を使用して、対象のクローラーをすばやく見つけます。
重要メタデータクローラーを削除すると、収集されたメタデータオブジェクトがデータマップから削除されます。ユーザーはこれらのオブジェクトを検索または表示できなくなります。注意:この操作は元に戻せません。
詳細とログの表示:クローラー名をクリックして詳細を表示します。
Basic Information:クローラーのすべての設定項目を表示します。
Data Scope:Modify Data Scope を表示または実行します。
収集前に表示した場合、テーブル数と最終更新時間は空になります。
次のデータソースは範囲変更をサポートしていません:EMR Hive、CDH Hive、Lindorm、ElasticSearch、Tablestore (OTS)、MongoDB、および AnalyticDB for MySQL 内の AnalyticDB for Spark。
Run Logs:各収集タスクの実行履歴を追跡します。開始時刻、期間、ステータス、収集されたデータ量を確認できます。タスクが失敗した場合、View Logs をクリックすることが、問題の特定と解決の重要なエントリーポイントとなります。
手動での収集実行:右上隅の Collect Metadata をクリックして、収集タスクを即座にトリガーします。これを使用して、新しく作成されたテーブルをデータマップですぐに表示できます。
次のステップ
メタデータが収集された後、データマップを使用して次のことができます:
よくある質問
Q:MySQL などのデータベースソースで収集がタイムアウトまたは失敗するのはなぜですか?
A:リソースグループの vSwitch の CIDR ブロック がホワイトリストに追加されていることを確認してください。
収集範囲とタイムリネス
データテーブル
Data Source Type | Collection Mode | 収集粒度 | 更新タイムリネス | ||
テーブル/フィールド | Partition | リネージ | |||
MaxCompute | システムデフォルトの自動収集 | インスタンス | 標準プロジェクト:リアルタイム 外部プロジェクト:T+1 | 中国本土リージョン:リアルタイム 海外リージョン:T+1 | リアルタイム |
Data Lake Formation (DLF) | インスタンス | リアルタイム | リアルタイム | Serverless Spark、Serverless StarRocks、Serverless Flink エンジンの DLF メタデータのリネージがサポートされています。他のエンジンはサポートされていません。 重要 EMR クラスターの場合、EMR_HOOK を有効にする必要があります。 | |
Hologres | 手動でクローラーを作成 | データベース | スケジュールに依存 | リアルタイム | |
EMR Hive | インスタンス | スケジュールに依存 | スケジュールに依存 | リアルタイム 重要 クラスターに対して EMR_HOOK を有効にする必要があります。 | |
CDH Hive | インスタンス | スケジュールに依存 | リアルタイム | リアルタイム | |
StarRocks | データベース |
| リアルタイム 重要 リネージ収集はインスタンスモードでのみサポートされています。接続文字列モードではリネージを収集できません。 | ||
AnalyticDB for MySQL | データベース | スケジュールに依存 | リアルタイム 説明 AnalyticDB for MySQL インスタンスのデータリネージ機能を有効にするには、チケットを送信する必要があります。 | ||
AnalyticDB for Spark | インスタンス | リアルタイム | リアルタイム | ||
AnalyticDB for PostgreSQL | データベース | スケジュールに依存 | リアルタイム | ||
Lindorm | インスタンス | スケジュールに依存 | リアルタイム | ||
Tablestore (OTS) | インスタンス | スケジュールに依存 | |||
MongoDB | インスタンス | スケジュールに依存 | |||
ElasticSearch | インスタンス | スケジュールに依存 | T+1 更新 | ||
Paimon Catalog | カタログ | スケジュールに依存 | スケジュールに依存 | ||
その他のデータソースタイプ (MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse、SelectDB など) | データベース | スケジュールに依存 | |||
AnalyticDB for Spark と AnalyticDB for MySQL は同じメタデータ収集エントリーポイントを使用します。
タスクコード
データマップはコード検索と迅速な特定をサポートしています。以下の表はサポート範囲を説明しています。
コードソース | 収集範囲 | トリガーメソッド |
Data Studio | Data Studio - ノード作成とコード編集 | 自動収集 |
Data Studio (Legacy) | Data Studio (Legacy) - ノード作成とコード編集 | |
Data Analysis | Data Analysis - SQL クエリ作成とコード編集 | |
DataService Studio | DataService Studio - API データプッシュサービスの作成 |
API 資産
データマップは DataService Studio の API メタデータの表示をサポートしています:
API Type | 収集範囲 | トリガーメソッド |
生成 API (コードレス UI) | DataService Studio - コードレス UI による API 作成 | 自動収集 |
生成 API (コードエディタ) | DataService Studio - コードエディタによる API 作成 | |
登録 API | DataService Studio - API 登録 | |
サービスオーケストレーション | DataService Studio - サービスオーケストレーションの作成 |
AI 資産
データマップは AI 資産の表示と管理をサポートし、AI 資産リネージを提供してデータとモデルの起源、使用、進化を追跡します。以下の表は AI 資産のサポート状況を説明しています。
タイプ | 収集範囲 | トリガーメソッド |
データセット |
| 自動収集 |
AI モデル | PAI - モデルトレーニングタスク/モデルの登録/モデルサービスのデプロイ | |
アルゴリズムタスク | PAI - トレーニングタスク/ワークフロータスク/分散トレーニングタスク | |
モデルサービス | PAI - モデルサービスのデプロイ (EAS デプロイメント) |
Workspace
データマップはワークスペースのメタデータの表示をサポートしています:
プロジェクト | Collection Mode | トリガーメソッド |
ワークスペース | DataWorks - ワークスペースの作成 | 自動収集 |