すべてのプロダクト
Search
ドキュメントセンター

AnalyticDB:全体的なアーキテクチャ

最終更新日:Jul 25, 2024

AnalyticDB for MySQLは、Alibaba Cloudが社内で開発したリアルタイムデータウェアハウスサービスです。 AnalyticDB for MySQLはペタバイト単位のデータを処理でき、超大規模のコアビジネスで試され、テストされています。

概要

2012年にAlibaba Groupで最初にリリースされた後、AnalyticDB for MySQLは100近くのバージョンで反復され、電子商取引、広告、ロジスティクス、エンターテインメント、観光、リスク管理など、Alibaba Groupが所有するさまざまなビジネスセクターのリアルタイム分析をサポートしてきました。 2014年、AnalyticDB for MySQLが正式に公開されました。 AnalyticDB for MySQLは、12を超える業界の従来の大中規模企業、公共サービス部門、およびインターネット企業にサービスを提供しています。

AnalyticDB for MySQLは、データベースとビッグデータ機能を統合したクラウドネイティブのデータウェアハウスサービスです。

技術アーキテクチャ

AnalyticDB for MySQLは、コンピューティングをストレージから分離し、ホットデータをコールドデータから分離するクラウドネイティブアーキテクチャを採用しています。 AnalyticDB for MySQLは、高スループット、強力なデータ一貫性、高いクエリ同時実行性、および高スループットのバッチ処理を備えたリアルタイムデータ書き込み操作をサポートします。

AnalyticDB for MySQL Data Warehouse Editionは、高性能なリアルタイム分析に適しています。 データ量が増加し、より多くのデータ形式がサポートされるため、抽出、変換、ロード (ETL) 操作を実行する前にデータを前処理する必要があります。 この問題を解決するために、AnalyticDB for MySQL Data Lakehouse Editionがリリースされ、バッチ処理とリアルタイム分析の要件を満たす高スループットのバッチ処理機能を提供します。

データウェアハウス版

次の図は、Data Warehouse Editionのアーキテクチャを示しています。

image

アクセス層

アクセス層は、線形にスケーラブルなコーディネータノードからなる。 アクセス層は、プロトコル層アクセス、SQL解析および最適化、書き込まれたデータのリアルタイムシャーディング、データスケジューリング、およびクエリスケジューリングに使用されます。

計算エンジン

計算エンジンは、分散型超並列処理 (MPP) および有向非巡回グラフ (DAG) 機能を統合する。 計算エンジンは、高度な同時実行性と複雑なSQLクエリをサポートするインテリジェントオプティマイザを活用します。 クラウドネイティブのインフラストラクチャでは、計算ノードを数秒以内にスケーリングできます。 このようにして、リソースが効率的に利用される。

ストレージエンジン

ストレージエンジンは、Raftコンセンサスプロトコルに基づいて、強力な一貫性と高可用性を備えたリアルタイムデータ書き込み操作をサポートします。 ストレージエンジンは、データシャーディングとマルチラフトを使用して並列処理をサポートし、ホットデータとコールドデータを階層化してコストを削減し、ハイブリッド行と列ストレージとインテリジェントインデックスを使用して究極のパフォーマンスを提供します。

Data Warehouse Editionは、3層アーキテクチャを使用して数秒以内のフェールオーバーをサポートし、ゾーン間のデプロイ、自動障害検出、レプリカの削除と再作成を実装します。 Data Warehouse Editionは、3つのレプリカデータストレージと完全バックアップおよび増分バックアップをサポートしており、金融業界で必要とされるデータの信頼性を提供します。 Data Warehouse Editionには、データの移行、同期、管理、統合、保護に使用できるツールが用意されており、ビジネス開発に集中することができます。

データレイクハウス版

Data Warehouse Editionと比較して、Data Lakehouse Editionは、低コストのバッチ処理と高性能のリアルタイム分析を実装できます。 Data Lakehouse Editionは、収集、ストレージ、コンピューティング、管理、およびアプリケーションのデータ処理機能を大幅に向上させます。

次の図は、Data Lakehouse Editionのアーキテクチャを示しています。

image

データソース

AnalyticDB Pipeline Service (APS) は、データベース、ログ、ビッグデータプラットフォームなどのデータソースへの低コストアクセスを実装するために提供されます。

ストレージレイヤーコンピューティングレイヤー

Data Lakehouse Editionは、XIHE計算エンジンとXUANWUストレージエンジンの2つの社内エンジンを提供します。 Data Lakehouse Editionは、オープンソースのSpark計算エンジンとHudiストレージエンジンもサポートしています。 Data Lakehouse Editionは、さまざまなデータ分析シナリオに適しており、社内エンジンとオープンソースエンジン間のアクセスをサポートして、集中データ管理を実装します。

  • ストレージレイヤー: 完全なデータの1つのコピーは、バッチ処理とリアルタイム分析の両方に使用できます。

    バッチ処理シナリオでは、コストを削減するために、データを低コストのストレージメディアに保存する必要があります。 リアルタイム分析シナリオでは、パフォーマンスを向上させるためにデータを高速ストレージメディアに保存する必要があります。 バッチ処理の要件を満たすために、Data Lakehouse Editionは、フルデータの1つのコピーを低コスト、高スループットのストレージメディアに保存します。 これにより、データストレージとI/Oのコストが削減され、高いスループットが保証されます。 Data Lakehouse Editionは、100ミリ秒以内のリアルタイム分析の要件を満たすために、個々のEIU (elastic I/O Unit) に関するリアルタイムデータを保存します。 これにより、行データのクエリ、完全なインデックス作成、およびキャッシュの高速化の適時性要件を満たすことができます。

  • 計算層: システムは、XIHE計算エンジンのための適切な計算モードを自動的に選択する。 オープンソースのSpark計算エンジンは、さまざまなシナリオに適しています。

    XIHE計算エンジンは、MPPおよびバルク同期並列 (BSP) の2つの計算モードを提供する。 MPPモードはストリームコンピューティングを使用するため、低コストで高スループットのバッチ処理シナリオには適していません。 BSPモードは、DAG内のタスクを分割し、各タスクのデータを計算します。 このようにして、限られたリソースを使用して大量のデータを処理することができ、データをディスクに格納することができる。 MPPモードが特定の期間内にデータを処理できない場合、XIHE計算エンジンは、データを処理するためにBSPモードに自動的に切り替えることができる。

    オープンソースのSpark計算エンジンは、より複雑なバッチ処理および機械学習のシナリオに適しています。 コンピューティングレイヤーとストレージレイヤーは分離されていますが、相互接続されているため、Sparkリソースグループを簡単に作成および設定できます。

アクセス層

アクセス層は、統一された請求単位、メタデータおよび許可、開発言語、および伝送リンクを利用して、開発効率を向上させる。

AnalyticDB for MySQLは、分散アーキテクチャ、エラスティックコンピューティング、クラウドコンピューティングの利点を組み合わせて、スケーラビリティ、使いやすさ、信頼性、セキュリティを大幅に向上させます。 これにより、さまざまなシナリオでのデータウェアハウジングの要件を満たすことができます。 AnalyticDB for MySQLは、より大規模な同時アクセスをサポートし、より高速な読み取りおよび書き込みパフォーマンスを提供し、ハイブリッドクエリワークロードのよりスマートな管理を実装します。 AnalyticDB for MySQLは、リソースをより細かい方法で低コストで利用するのに役立ちます。これにより、ビジネス開発とデータ価値により重点を置くことができます。