Alibaba Cloud Elastic MapReduce (または E-MapReduce) は、大量のデータの処理と分析を容易にするビッグデータ処理ソリューションです。
- Apache Hadoop の詳細は、Apache Hadoop 公式サイトをご参照ください。
- Apache Spark の詳細は、Apache Spark 公式サイトをご参照ください。
- Apache Hive の詳細は、Apache Hive 公式サイトをご参照ください。
- Apache Pig の詳細は、Apache Pig 公式サイトをご参照ください。
- Apache HBase の詳細は、Apache HBase 公式サイトをご参照ください。
E-MapReduce の使用
通常、Hadoop や Spark などの分散処理システムを使用するには、以下の手順に従います。
- ビジネス特性を評価します。
- 機種を選択します。
- マシンを購入します。
- ハードウェア環境を準備します。
- オペレーティングシステムをインストールします。
- アプリケーション (Hadoop や Spark など) をデプロイします。
- クラスターを起動します。
- アプリケーションを記述します。
- ジョブを実行します。
- データを取得します。または別の操作を実行します。
手順 1 〜 7 は準備作業であり、完了するまでに時間がかかる可能性があります。 一方、手順 8 〜 10 はアプリケーションロジックに関するものです。 E-MapReduce では、クラスタの構築、構成、実行および管理、ジョブの構成および実行、ホストの選択、環境のデプロイ、およびパフォーマンスの監視に使用されるものを含む、統合された一連のクラスター管理ツールが提供されます。
アプリケーションの処理ロジックに集中するには、E-MapReduce を使用して、調達、準備、運用、保守などのプロセスをすべて管理します。 E-MapReduce には柔軟な組み合わせモードもあります。E-MapReduce では、必要に応じてさまざまなクラスターサービスを選択します。 たとえば、毎日の統計を受信したり、単純なバッチ操作を実行する場合は、E-MapReduce で Hadoop サービスのみの実行を選択します。 ストリーム指向コンピューティングおよびリアルタイムコンピューティングを後の段階で実装する場合は、Spark に追加します。
E-MapReduce の構造
クラスターは E-MapReduce のコアコンポーネントです。 E-MapReduce クラスターは、基本的には複数の Alibaba Cloud ECS インスタンスからなる Spark または Hadoop クラスターです。 たとえば、Hadoop では、通常は各 ECS インスタンス (namenode、datanode、resourcemanager、nodemanager など) で実行されるデーモンによって Hadoop クラスターが形成されます。 Namenode と Resourcemanager を実行するノードはマスターノードと呼ばれ、Datanode と Nodemanager を実行するノードはスレーブノードと呼ばれます。
以下の図は、1 つのマスターノードと 3 つのスレーブノードで構成される E-MapReduce クラスターを示しています。