すべてのプロダクト
Search
ドキュメントセンター

AnalyticDB:Hudiストレージ

最終更新日:Jun 06, 2024

Apache Hudiは、データの挿入、更新、削除を可能にするデータレイクフレームワークです。 通常、このフレームワークは、Object Storage Service (OSS) に基づいて費用対効果の高いデータ湖を構築するために使用されます。 Apache Hudiは、複数のバージョンのファイル管理プロトコルをサポートし、リアルタイムの増分データ書き込み、トランザクションのアトミック性、一貫性、分離、耐久性 (ACID) 、小さなファイルの自動マージと最適化など、データの取り込みと分析の機能を提供します。 さらに、Apache Hudiは、メタデータの検証とスキーマの進化を実装し、高効率の列分析形式とインデックスの最適化をサポートし、超大規模なパーティションテーブルを保存できます。

AnalyticDB for MySQLチームは、Apache Hudiに基づくオープンソースのHudiエコシステムと完全に互換性のある、費用対効果の高いデータ湖屋ソリューションを構築します。 AnalyticDB for MySQLクラスターを作成した後、OSSとHudiに基づいてデータレイクハウスを構築するための簡単な設定を構成できます。 たとえば、AnalyticDB Pipeline Service (APS) を使用して、Kafkaまたはlog Serviceからデータレーキハウスにほぼリアルタイムでログデータを取り込むことも、AnalyticDB For MySQL Serverless Sparkエンジンを使用して、ApsaraDB RDSまたはParquetからデータレーキハウスにデータをバッチで取り込むこともできます。 次の図は、AnalyticDB for MySQLが提供するデータレイクハウスソリューションのアーキテクチャを示しています。Hudi storage

AnalyticDB for MySQLはApache Hudiと深く統合されており、Hudiカーネルを詳細に改善しています。 オープンソースのHudiソリューションと比較して、AnalyticDB for MySQLが提供するデータレイクハウスソリューションには、次の利点があります。

  • 使いやすさ

    • GUIでAPS設定を実行した後、Hudiにデータを簡単に書き込むことができます。 AnalyticDB for MySQLは、Hudiと協力して複雑なSpark設定を取り除くことで、このソリューションをすぐに提供します。

  • ハイパフォーマンス書き込み

    • このソリューションにより、OSSベースの書き込みが大幅に改善されます。 ほとんどのロギングシナリオでは、このソリューションは、オープンソースのHudiソリューションと比較して2倍以上のOSS書き込みパフォーマンスを提供します。 ホットデータは、データスキューの問題を解決し、書き込みの安定性を大幅に改善するために、均一な方法で自動的に配布できます。

  • パーティション化されたライフサイクル管理

    • パーティション数、データ量、有効期限などの複数のディメンションに基づいて、パーティションデータのライフサイクルを管理できます。 複数のライフサイクル管理ポリシーを同時に設定して、ストレージコストをさらに削減できます。

  • テーブルサービスのサポート

    • このソリューションは、書き込みリンクから完全に分離された非同期テーブルサービスをサポートします。 クラスタリングなどの非同期テーブルサービスは、ほとんどのシナリオでクエリのパフォーマンスを最大40% 以上向上させます。

  • 自動メタデータ同期

    • AnalyticDB for MySQLは、メタデータの一元管理を提供します。 データがHudiに書き込まれた後、テーブルメタデータを手動で同期する必要なく、AnalyticDB for MySQL Serverless SparkおよびXIHEエンジンを使用してデータにアクセスできます。 複数のコンピューティングエンジンを使用して、取り込まれたデータの1つのコピーにアクセスできます。