AnalyticDBとは何ですか?
AnalyticDBは、Alibaba cloudが社内で開発したクラウドネイティブのリアルタイムデータウェアハウスサービスです。 AnalyticDBを使用すると、オンライントランザクション処理 (OLTP) データベースとログファイルからリアルタイムでデータを書き込み、数秒以内にペタバイト単位のデータを分析できます。 AnalyticDBは、クラウドネイティブのストレージとコンピューティングの分離アーキテクチャを使用しており、ストレージの従量課金方法とコンピューティングの柔軟なスケーリング機能をサポートしています。 AnalyticDBは、データ処理効率、コスト管理、およびシステム安定性に関するエンタープライズ要件を満たすために、リソースの分離に基づくバッチ処理とリアルタイム分析を提供します。 AnalyticDBは、MySQL、PostgreSQL、およびSparkエコシステムと互換性があります。
AnalyticDBは、AnalyticDB for MySQLとAnalyticDB for PostgreSQLの2つのエンジンを提供します。
項目 | AnalyticDB for MySQL | AnalyticDB for PostgreSQL | |
エコシステム | MySQLとの互換性が高い Sparkとの互換性が高い | PostgreSQLと完全互換 Oracleとの互換性が高い | |
アーキテクチャ | ストレージとコンピューティングの分離アーキテクチャ | ||
拡張性 | 類似点 | 垂直スケーリング 水平スケーリング | |
相違点 | マルチクラスタースケーリングモデルを使用してリソースを自動的にスケーリングする min-maxモデルを使用して、スケジュールされた方法でリソースを自動的にスケーリングします。 | スケジュールされたジョブを使用してスケジュールされた方法で構成を変更する サーバーレスモードでオンデマンドでリソースをスケーリング | |
特徴 | 類似点 | ベクトル検索 全文検索 バッチ処理 リアルタイムのマテリアライズド・ビュー | |
相違点 | データレイク Sparkバッチ処理 インテリジェントな診断とクエリのパフォーマンスの最適化 | Retrieval-拡張世代 (RAG) サービス 時空間データ分析 | |
シナリオ | 類似点 | リアルタイムデータウェアハウス リアルタイムログ解析 ビジネスインテリジェンス (BI) レポート | |
相違点 | 精密マーケティング マルチソースジョイント解析 ビッグデータの保存と分析 オフラインデータの高速化クエリ Databricks、Athena、自己管理型SparkまたはPrestoクラスターなど、他のデータレイクまたはデータウェアハウスサービスのデータ移行 | Large Language Model (LLM) アプリケーションのエンドツーエンド構築 専用のエンタープライズナレッジベース 地理情報システム (GIS) ベースのビッグデータ分析 リアルタイム分析による統合バッチ処理 Greenplum、Redshift、Synapse、Snowflake、BigQueryなどの他のデータウェアハウスサービスのデータ移行 | |
業種 | ゲーム、小売りおよび自動車 | 小売、eコマース、教育 | |
コスト効率 | 類似点 | 実際のデータボリュームに基づくデータストレージ料金 ホットデータとコールドデータを階層化してストレージコストを削減 トラフィックスパイク中に十分なリソースを確保し、トラフィックスパイク後のアイドルリソースを防ぐために、定期的なトラフィック変動に基づくスケジューリングされたスケーリング | |
相違点 | ビジネスワークロードに基づく自動スケーリング | ビジネス要件に基づく手動インスタンスの起動または一時停止 |
Introduction to AnalyticDB for MySQL
データソース
AnalyticDB Pipeline Service (APS) は、データベース、ログ、ビッグデータプラットフォームなどのデータソースへの低コストアクセスを実装するために提供されます。
ストレージレイヤーとコンピューティングレイヤー
Data Lakehouse Editionは、XIHE計算エンジンとXUANWUストレージエンジンの2つの社内エンジンを提供します。 Data Lakehouse Editionは、オープンソースのSpark計算エンジンとHudiストレージエンジンもサポートしています。 Data Lakehouse Editionは、さまざまなデータ分析シナリオに適しており、社内エンジンとオープンソースエンジン間のアクセスをサポートして、集中データ管理を実装します。
ストレージレイヤー: 完全なデータの1つのコピーは、バッチ処理とリアルタイム分析の両方に使用できます。
バッチ処理シナリオでは、コストを削減するために、データを低コストのストレージメディアに保存する必要があります。 リアルタイム分析シナリオでは、パフォーマンスを向上させるためにデータを高速ストレージメディアに保存する必要があります。 バッチ処理の要件を満たすために、Data Lakehouse Editionは、低コスト、高スループットのストレージメディアに完全なデータの1つのコピーを保存します。 これにより、データストレージとI/Oのコストが削減され、高いスループットが保証されます。 Data Lakehouse Editionは、100ミリ秒以内のリアルタイム分析の要件を満たすために、個々のEIU (elastic I/O Unit) に関するリアルタイムデータを保存します。 これにより、行データのクエリ、完全なインデックス作成、およびキャッシュアクセラレーションの適時性要件を満たすことができます。
計算層: システムは、XIHE計算エンジンのための適切な計算モードを自動的に選択する。 オープンソースのSpark計算エンジンは、さまざまなシナリオに適しています。
XIHE計算エンジンは、大規模並列処理 (MPP) およびバルク同期並列 (BSP) の2つの計算モードを提供する。 MPPモードはストリームコンピューティングを使用するため、低コストで高スループットのバッチ処理シナリオには適していません。 BSPモードは、DAG内のタスクを分割し、各タスクのデータを計算します。 このようにして、限られたリソースを使用して大量のデータを処理することができ、データをディスクに格納することができる。 MPPモードが特定の期間内にデータを処理できない場合、XIHE計算エンジンは、データを処理するためにBSPモードに自動的に切り替えることができる。
オープンソースのSpark計算エンジンは、より複雑なバッチ処理および機械学習のシナリオに適しています。 コンピューティングレイヤーとストレージレイヤーは分離されていますが、相互接続されているため、Sparkリソースグループを簡単に作成および設定できます。
アクセス層
アクセス層は、統一された請求単位、メタデータおよび許可、開発言語、および伝送リンクを利用して、開発効率を向上させる。
AnalyticDB for MySQLエディションの詳細については
、「エディション」をご参照ください。
Introduction to AnalyticDB for PostgreSQL
AnalyticDB for PostgreSQLは、エラスティックストレージモードとサーバーレスモードで使用できます。 elastic storageモードでは、ECS (Elastic Compute Service) とESSD (Enterprise SSD) に基づく無共有アーキテクチャを使用し、MPP機能を提供します。 サーバーレスモードは、ECS、ローカルキャッシュ、およびObject storage Service (OSS) に基づく共有ストレージアーキテクチャを使用し、分離されたストレージとコンピューティング機能を提供します。
AnalyticDB for PostgreSQLインスタンスは、コーディネーターノードと複数の計算ノードで構成されます。 コーディネータノードは、メタデータ管理および負荷分散を担当する。 計算ノードは、データ処理を担当する。 コンピュート・ノードは、Orcaオプティマイザと自己開発のレーザー実行エンジンおよびビーム・ストレージ・エンジンを統合して、高性能なクエリを実装します。 計算ノードはまた、増分マテリアライズドビュー (IMV) を使用して、リアルタイムマテリアライズドビューを構築する。 AnalyticDB for PostgreSQLは、コンピューティングノードに接続されたESSDにホットデータを保存し、OSSにコールドデータを保存します。 ホットデータとコールドデータの階層ストレージは、クエリのパフォーマンスを向上させ、ストレージコストを削減します。 コンピューティングノードのコンピューティングリソースとストレージリソースを個別にスケーリングできます。