Alibaba Cloud Elastic MapReduce (EMR) は、Alibaba Cloud プラットフォーム上で動作するビッグデータ処理のためのソリューションです。EMR は Alibaba Cloud ECS インスタンス上に構築され、オープンソースの Apache Hadoop 、Apache Spark をベースとしています。EMR では、Apache Hive、Apache Kafka、Flink、Druid、TensorFlow などの Hadoop と Spark のエコシステムコンポーネントを使用してデータの分析および処理を実行できます。EMR では、Object Storage Service (OSS)、Log Service (SLS)、Relational Database Service (RDS) などのさまざまな Alibaba Cloud データストレージサービスに保存されているデータの処理を実行できます。
製品の強み
-
操作簡単
簡単にクラスターを設定でき、ハードウェアやソフトウェアの設定も不要です。すべてのメンテナンス操作は web インターフェイスで実行されます。
-
コスト効率
クラスターを作成し、現在の計算ニーズに基づいて、計算ノードを動的にスケールイン & スケールアウトできます。
-
安定性
EMR では、緊密に最適化されたクラスター環境、自動化されたバックグラウンドメンテナンス、複数のオンラインサポートチャンネルがサポートされています。
-
セキュリティ
EMR では Kerberos 認証とデータ暗号化がサポートされています。RAM ユーザーを使用することでサービス権限を詳細に管理できます。
特徴
自動化されたクラスターのデプロイと拡張
Web インタフェースで簡単にクラスターのデプロイおよび拡張ができます。ハードウェアとソフトウェアを管理する必要はありません。
クラスターの作成
Hadoop、Kafka、Druid、ZooKeeper などの複数のタイプのクラスターを簡単にデプロイできます。
クラスターの拡張
既存のクラスターにあらゆるタイプのノードを簡単に追加できます。
スケジュールされたクラスター作成
クラスターの作成や、スケジュールされた時間でのジョブの実行、ジョブ実行後のクラスターのリリースをするためのプランを実行できます。
コンポーネント自動デプロイ
ニーズに応じてコンポーネントの追加、設定、維持ができます。
ダイナミックな拡張
指定された時間にクラスターのコンピューティングリソースをスケールイン & スケールアウトすることで、総所有コスト (TCO) を削減できます。
ワークフローのスケジューリング
EMR では、シンプルなジョブオーケストレーションとスケジューリングが提供されています。
ジョブの編集と管理
EMR ではグラフィックなジョブの編集や管理がサポートされており、複数タイプのジョブを実行および調整できます。
ワークフローのスケジューリング
EMR では、ジョブの依存性スケジューリングがサポートされています。ジョブを DAG ベースのワークフローとしてスケジュールできます。
ダイナミッククラスター
EMR を使用して、一時的なクラスターを起動し、スケジュールされた時間にジョブを実行し、ジョブの実施後にクラスターを停止できます。
保証されているジョブの実行
EMR がジョブの実行に失敗すると、すぐにアラームが送信されます。EMR で自動的にジョブを再実行するよう設定することもできます。
複数のコンポーネント
EMR では複数のコンポーネントが提供されています。
Hadoop
PB 級のストレージ容量と計算能力を有するビッグデータ処理プラットフォームです。
Spark
メモリベースの新世代分散型コンピューティングフレームワークです。オフライン & リアルタイムのフレームワークととコンピューティング、SQL 構文、機械学習がサポートされています。
Hive
Hadoop をベースにしたオフラインデータ処理システムです。Hive では、Hadoop Distributed File System (HDFS) に基づいた構造化テーブル管理がサポートされており、データ分析と処理のために SQL に類似したクエリ構文が提供されています。
Kafka
高いスループットと信頼性を有する分散型メッセージ公開 & サブスクリプションシステムです。
Storm
ミリ秒単位でリアルタイムデータ処理を行うリアルタイム計算エンジンです。
ZooKeeper
分散型アプリケーションの整合性を確保できる分散型オープンソース調整サービスです。
Hue
管理ツールと web インタフェースです。
Oozie
オープンソースのジョブスケジューリングツールです。
Druid
オープンソースのリアルタイムビッグデータ解析ソフトウェアです。
Flink
バッチ処理とストリーム処理のための分散型エンジンです。
エコシステム全体のサポート
EMR は Alibaba Cloud サービスと緊密に統合されています。
OSS サポート
ほとんどの EMR のコンポーネントでは、 Object Storage Service (OSS) を HDFS として使用することができます。
SLS サポート
EMR では、Log Service (SLS) から Real-Time Data (RTD) を入力でいる SDK が提供されています。
Elasticsearch のサポート
Hadoopには、Elasticsearchのすべての操作をサポートするES-Hadoopプラグインが組み込まれています。
MaxCompute のサポート
EMR では、 Alibaba Cloud MaxCompute のデータの読み書きがサポートされています。
Alibaba Cloud Message Services のサポート
EMR では、 Message Queue、 Message Service などの Alibaba Cloud メッセージサービスからの読み書き、および SDK 統合がサポートされています。