すべてのプロダクト
Search
ドキュメントセンター

AnalyticDB:製品の概要

最終更新日:Sep 23, 2024

AnalyticDBとは何ですか?

AnalyticDBは、Alibaba cloudが社内で開発したクラウドネイティブのリアルタイムデータウェアハウスサービスです。 AnalyticDBを使用すると、オンライントランザクション処理 (OLTP) データベースとログファイルからリアルタイムでデータを書き込み、数秒以内にペタバイト単位のデータを分析できます。 AnalyticDBは、クラウドネイティブのストレージとコンピューティングの分離アーキテクチャを使用しており、ストレージの従量課金方法とコンピューティングの柔軟なスケーリング機能をサポートしています。 AnalyticDBは、データ処理効率、コスト管理、およびシステム安定性に関するエンタープライズ要件を満たすために、リソースの分離に基づくバッチ処理とリアルタイム分析を提供します。 AnalyticDBは、MySQL、PostgreSQL、およびSparkエコシステムと互換性があります。

AnalyticDBは、AnalyticDB for MySQLとAnalyticDB for PostgreSQLの2つのエンジンを提供します。

項目

AnalyticDB for MySQL

AnalyticDB for PostgreSQL

エコシステム

MySQLとの互換性が高い

Sparkとの互換性が高い

PostgreSQLと完全互換

Oracleとの互換性が高い

アーキテクチャ

ストレージとコンピューティングの分離アーキテクチャ

拡張性

類似点

垂直スケーリング

水平スケーリング

相違点

マルチクラスタモデルを使用してリソースを自動的にスケーリングする

min-maxモデルを使用して、スケジュールされた方法でリソースを自動的にスケーリングします。

スケジュールされたジョブを使用してスケジュールされた方法で構成を変更する

サーバーレスモードでオンデマンドでリソースをスケーリング

特徴

類似点

ベクトル検索

全文検索

バッチ処理

リアルタイムのマテリアライズド・ビュー

相違点

データレイク

Sparkバッチ処理

インテリジェントな診断とクエリのパフォーマンスの最適化

Retrieval-拡張世代 (RAG) サービス

時空間データ分析

シナリオ

類似点

リアルタイムデータウェアハウス

リアルタイムログ解析

ビジネスインテリジェンス (BI) レポート

相違点

精密マーケティング

マルチソースジョイント解析

ビッグデータの保存と分析

オフラインデータの高速化クエリ

Databricks、Athena、自己管理型SparkまたはPrestoクラスターなど、他のデータレイクまたはデータウェアハウスサービスのデータ移行

LLM (Large Language Model) アプリケーションのワンストップ構築

専用のエンタープライズナレッジベース

地理情報システム (GIS) ベースのビッグデータ分析

リアルタイム分析による統合バッチ処理

Greenplum、Redshift、Synapse、Snowflake、BigQueryなどの他のデータウェアハウスサービスのデータ移行

業種

ゲーム、小売りおよび自動車

小売、eコマース、教育

コスト効率

類似点

実際のデータボリュームに基づくデータストレージ料金

ホットデータとコールドデータを階層化してストレージコストを削減

トラフィック変動中に十分なリソースを確保し、トラフィック変動後のアイドルリソースを防止するための定期的なトラフィック変動に基づくスケジューリングされた自動スケーリング

相違点

ビジネスワークロードに基づく自動スケーリング

ビジネス要件に基づく手動インスタンスの起動または一時停止

AnalyticDB for MySQLのアーキテクチャ

データレイクハウス版

Data Warehouse Editionと比較して、Data Lakehouse Editionは、低コストのバッチ処理と高性能のリアルタイム分析を実装できます。 Data Lakehouse Editionは、収集、ストレージ、コンピューティング、管理、およびアプリケーションのデータ処理機能を大幅に向上させます。

次の図は、Data Lakehouse Editionのアーキテクチャを示しています。

image

データソース

AnalyticDB Pipeline Service (APS) は、データベース、ログ、ビッグデータプラットフォームなどのデータソースへの低コストアクセスを実装するために提供されます。

ストレージレイヤーコンピューティングレイヤー

Data Lakehouse Editionは、XIHE計算エンジンとXUANWUストレージエンジンの2つの社内エンジンを提供します。 Data Lakehouse Editionは、オープンソースのSpark計算エンジンとHudiストレージエンジンもサポートしています。 Data Lakehouse Editionは、さまざまなデータ分析シナリオに適しており、社内エンジンとオープンソースエンジン間のアクセスをサポートして、集中データ管理を実装します。

  • ストレージレイヤー: 完全なデータの1つのコピーは、バッチ処理とリアルタイム分析の両方に使用できます。

    バッチ処理シナリオでは、コストを削減するために、データを低コストのストレージメディアに保存する必要があります。 リアルタイム分析シナリオでは、パフォーマンスを向上させるためにデータを高速ストレージメディアに保存する必要があります。 バッチ処理の要件を満たすために、Data Lakehouse Editionは、フルデータの1つのコピーを低コスト、高スループットのストレージメディアに保存します。 これにより、データストレージとI/Oのコストが削減され、高いスループットが保証されます。 Data Lakehouse Editionは、100ミリ秒以内のリアルタイム分析の要件を満たすために、個々のEIU (elastic I/O Unit) に関するリアルタイムデータを保存します。 これにより、行データのクエリ、完全なインデックス作成、およびキャッシュの高速化の適時性要件を満たすことができます。

  • 計算層: システムは、XIHE計算エンジンのための適切な計算モードを自動的に選択する。 オープンソースのSpark計算エンジンは、さまざまなシナリオに適しています。

    XIHE計算エンジンは、MPPおよびバルク同期並列 (BSP) の2つの計算モードを提供する。 MPPモードはストリームコンピューティングを使用するため、低コストで高スループットのバッチ処理シナリオには適していません。 BSPモードは、DAG内のタスクを分割し、各タスクのデータを計算します。 このようにして、限られたリソースを使用して大量のデータを処理することができ、データをディスクに格納することができる。 MPPモードが特定の期間内にデータを処理できない場合、XIHE計算エンジンは、データを処理するためにBSPモードに自動的に切り替えることができる。

    オープンソースのSpark計算エンジンは、より複雑なバッチ処理および機械学習のシナリオに適しています。 コンピューティングレイヤーとストレージレイヤーは分離されていますが、相互接続されているため、Sparkリソースグループを簡単に作成および設定できます。

アクセス層

アクセス層は、統一された請求単位、メタデータおよび許可、開発言語、および伝送リンクを利用して、開発効率を向上させる。

データウェアハウス版

次の図は、Data Warehouse Editionのアーキテクチャを示しています。

image

アクセス層

アクセス層は、線形にスケーラブルなコーディネータノードからなる。 アクセス層は、プロトコル層アクセス、SQL解析および最適化、書き込まれたデータのリアルタイムシャーディング、データスケジューリング、およびクエリスケジューリングに使用されます。

計算エンジン

計算エンジンは、分散型超並列処理 (MPP) および有向非巡回グラフ (DAG) 機能を統合する。 計算エンジンは、高度な同時実行性と複雑なSQLクエリをサポートするインテリジェントオプティマイザを活用します。 クラウドネイティブのインフラストラクチャでは、計算ノードを数秒以内にスケーリングできます。 このようにして、リソースが効率的に利用される。

ストレージエンジン

ストレージエンジンは、Raftコンセンサスプロトコルに基づいて、強力な一貫性と高可用性を備えたリアルタイムデータ書き込み操作をサポートします。 ストレージエンジンは、データシャーディングとマルチラフトを使用して並列処理をサポートし、ホットデータとコールドデータを階層化してコストを削減し、ハイブリッド行と列ストレージとインテリジェントインデックスを使用して究極のパフォーマンスを提供します。

Data Warehouse Editionは、3層アーキテクチャを使用して数秒以内のフェールオーバーをサポートし、ゾーン間のデプロイ、自動障害検出、レプリカの削除と再作成を実装します。 Data Warehouse Editionは、3つのレプリカデータストレージと完全バックアップおよび増分バックアップをサポートしており、金融業界で必要とされるデータの信頼性を提供します。 Data Warehouse Editionには、データの移行、同期、管理、統合、保護に使用できるツールが用意されており、ビジネス開発に集中することができます。

AnalyticDB for PostgreSQLのアーキテクチャ

image

AnalyticDB for PostgreSQLは、エラスティックストレージモードとサーバーレスモードで使用できます。 elastic storageモードでは、ECS (Elastic Compute Service) とESSD (Enterprise SSD) に基づく無共有アーキテクチャを使用し、MPP機能を提供します。 サーバーレスモードは、ECS、ローカルキャッシュ、およびObject storage Service (OSS) に基づく共有ストレージアーキテクチャを使用し、分離されたストレージとコンピューティング機能を提供します。

AnalyticDB for PostgreSQLインスタンスは、コーディネーターノードと複数の計算ノードで構成されます。 コーディネータノードは、メタデータ管理および負荷分散を担当する。 計算ノードは、データ処理を担当する。 コンピュート・ノードは、Orcaオプティマイザと自己開発のレーザー実行エンジンおよびビーム・ストレージ・エンジンを統合して、高性能なクエリを実装します。 計算ノードはまた、増分マテリアライズドビュー (IMV) を使用して、リアルタイムマテリアライズドビューを構築する。 AnalyticDB for PostgreSQLは、コンピューティングノードに接続されたESSDにホットデータを保存し、OSSにコールドデータを保存します。 ホットデータとコールドデータの階層ストレージは、クエリのパフォーマンスを向上させ、ストレージコストを削減します。 コンピューティングノードのコンピューティングリソースとストレージリソースを個別にスケーリングできます。

関連ドキュメント

メリット

シナリオ