すべてのプロダクト
Search
ドキュメントセンター

AnalyticDB:製品紹介

最終更新日:Nov 01, 2024

AnalyticDBとは何ですか?

AnalyticDBは、Alibaba cloudが社内で開発したクラウドネイティブのリアルタイムデータウェアハウスサービスです。 AnalyticDBを使用すると、オンライントランザクション処理 (OLTP) データベースとログファイルからリアルタイムでデータを書き込み、数秒以内にペタバイト単位のデータを分析できます。 AnalyticDBは、クラウドネイティブのストレージとコンピューティングの分離アーキテクチャを使用しており、ストレージの従量課金方法とコンピューティングの柔軟なスケーリング機能をサポートしています。 AnalyticDBは、データ処理効率、コスト管理、およびシステム安定性に関するエンタープライズ要件を満たすために、リソースの分離に基づくバッチ処理とリアルタイム分析を提供します。 AnalyticDBは、MySQL、PostgreSQL、およびSparkエコシステムと互換性があります。

AnalyticDBは、AnalyticDB for MySQLとAnalyticDB for PostgreSQLの2つのエンジンを提供します。

項目

AnalyticDB for MySQL

AnalyticDB for PostgreSQL

エコシステム

MySQLとの互換性が高い

Sparkとの互換性が高い

PostgreSQLと完全互換

Oracleとの互換性が高い

アーキテクチャ

ストレージとコンピューティングの分離アーキテクチャ

拡張性

類似点

垂直スケーリング

水平スケーリング

相違点

マルチクラスタースケーリングモデルを使用してリソースを自動的にスケーリングする

min-maxモデルを使用して、スケジュールされた方法でリソースを自動的にスケーリングします。

スケジュールされたジョブを使用してスケジュールされた方法で構成を変更する

サーバーレスモードでオンデマンドでリソースをスケーリング

特徴

類似点

ベクトル検索

全文検索

バッチ処理

リアルタイムのマテリアライズド・ビュー

相違点

データレイク

Sparkバッチ処理

インテリジェントな診断とクエリのパフォーマンスの最適化

Retrieval-拡張世代 (RAG) サービス

時空間データ分析

シナリオ

類似点

リアルタイムデータウェアハウス

リアルタイムログ解析

ビジネスインテリジェンス (BI) レポート

相違点

精密マーケティング

マルチソースジョイント解析

ビッグデータの保存と分析

オフラインデータの高速化クエリ

Databricks、Athena、自己管理型SparkまたはPrestoクラスターなど、他のデータレイクまたはデータウェアハウスサービスのデータ移行

Large Language Model (LLM) アプリケーションのエンドツーエンド構築

専用のエンタープライズナレッジベース

地理情報システム (GIS) ベースのビッグデータ分析

リアルタイム分析による統合バッチ処理

Greenplum、Redshift、Synapse、Snowflake、BigQueryなどの他のデータウェアハウスサービスのデータ移行

業種

ゲーム、小売りおよび自動車

小売、eコマース、教育

コスト効率

類似点

実際のデータボリュームに基づくデータストレージ料金

ホットデータとコールドデータを階層化してストレージコストを削減

トラフィックスパイク中に十分なリソースを確保し、トラフィックスパイク後のアイドルリソースを防ぐために、定期的なトラフィック変動に基づくスケジューリングされたスケーリング

相違点

ビジネスワークロードに基づく自動スケーリング

ビジネス要件に基づく手動インスタンスの起動または一時停止

Introduction to AnalyticDB for MySQL

image

データソース

AnalyticDB Pipeline Service (APS) は、データベース、ログ、ビッグデータプラットフォームなどのデータソースへの低コストアクセスを実装するために提供されます。

ストレージレイヤーコンピューティングレイヤー

Data Lakehouse Editionは、XIHE計算エンジンとXUANWUストレージエンジンの2つの社内エンジンを提供します。 Data Lakehouse Editionは、オープンソースのSpark計算エンジンとHudiストレージエンジンもサポートしています。 Data Lakehouse Editionは、さまざまなデータ分析シナリオに適しており、社内エンジンとオープンソースエンジン間のアクセスをサポートして、集中データ管理を実装します。

  • ストレージレイヤー: 完全なデータの1つのコピーは、バッチ処理とリアルタイム分析の両方に使用できます。

    バッチ処理シナリオでは、コストを削減するために、データを低コストのストレージメディアに保存する必要があります。 リアルタイム分析シナリオでは、パフォーマンスを向上させるためにデータを高速ストレージメディアに保存する必要があります。 バッチ処理の要件を満たすために、Data Lakehouse Editionは、低コスト、高スループットのストレージメディアに完全なデータの1つのコピーを保存します。 これにより、データストレージとI/Oのコストが削減され、高いスループットが保証されます。 Data Lakehouse Editionは、100ミリ秒以内のリアルタイム分析の要件を満たすために、個々のEIU (elastic I/O Unit) に関するリアルタイムデータを保存します。 これにより、行データのクエリ、完全なインデックス作成、およびキャッシュアクセラレーションの適時性要件を満たすことができます。

  • 計算層: システムは、XIHE計算エンジンのための適切な計算モードを自動的に選択する。 オープンソースのSpark計算エンジンは、さまざまなシナリオに適しています。

    XIHE計算エンジンは、大規模並列処理 (MPP) およびバルク同期並列 (BSP) の2つの計算モードを提供する。 MPPモードはストリームコンピューティングを使用するため、低コストで高スループットのバッチ処理シナリオには適していません。 BSPモードは、DAG内のタスクを分割し、各タスクのデータを計算します。 このようにして、限られたリソースを使用して大量のデータを処理することができ、データをディスクに格納することができる。 MPPモードが特定の期間内にデータを処理できない場合、XIHE計算エンジンは、データを処理するためにBSPモードに自動的に切り替えることができる。

    オープンソースのSpark計算エンジンは、より複雑なバッチ処理および機械学習のシナリオに適しています。 コンピューティングレイヤーとストレージレイヤーは分離されていますが、相互接続されているため、Sparkリソースグループを簡単に作成および設定できます。

アクセス層

アクセス層は、統一された請求単位、メタデータおよび許可、開発言語、および伝送リンクを利用して、開発効率を向上させる。

AnalyticDB for MySQLエディションの詳細については

、「エディション」をご参照ください。

Introduction to AnalyticDB for PostgreSQL

image

AnalyticDB for PostgreSQLは、エラスティックストレージモードとサーバーレスモードで使用できます。 elastic storageモードでは、ECS (Elastic Compute Service) とESSD (Enterprise SSD) に基づく無共有アーキテクチャを使用し、MPP機能を提供します。 サーバーレスモードは、ECS、ローカルキャッシュ、およびObject storage Service (OSS) に基づく共有ストレージアーキテクチャを使用し、分離されたストレージとコンピューティング機能を提供します。

AnalyticDB for PostgreSQLインスタンスは、コーディネーターノードと複数の計算ノードで構成されます。 コーディネータノードは、メタデータ管理および負荷分散を担当する。 計算ノードは、データ処理を担当する。 コンピュート・ノードは、Orcaオプティマイザと自己開発のレーザー実行エンジンおよびビーム・ストレージ・エンジンを統合して、高性能なクエリを実装します。 計算ノードはまた、増分マテリアライズドビュー (IMV) を使用して、リアルタイムマテリアライズドビューを構築する。 AnalyticDB for PostgreSQLは、コンピューティングノードに接続されたESSDにホットデータを保存し、OSSにコールドデータを保存します。 ホットデータとコールドデータの階層ストレージは、クエリのパフォーマンスを向上させ、ストレージコストを削減します。 コンピューティングノードのコンピューティングリソースとストレージリソースを個別にスケーリングできます。

参考情報

メリット

シナリオ