このチュートリアルでは、Alibaba Cloud EMR (E-MapReduce) のクラスターを作成する方法を学びます。
EMR クラスター作成ページに移動します
- Alibaba Cloud E-MapReduce コンソールにログインします。
- RAM 権限付与を完了します。 詳細は、ロールの権限付与をご参照ください。
- クラスターの地域を選択します。 リージョンは、クラスターの作成後に変更することはできません。
- [クラスターの作成] をクリックすると、クラスター作成ページに移動します。
クラスターの作成
重要 EMR クラスターを作成した後に変更できるのは、その名前だけです。
クラスターを作成するには、次の 3 つの手順に従います。
- ソフトウェアを設定します。
- EMR バージョン: E-MapReduce のメインバージョンは完全なオープンソースソフトウェア環境を表し、内部コンポーネントソフトウェアのアップグレードに基づいて定期的にアップグレードすることができます。 Hadoop に関連するソフトウェアがアップグレードされると、E-MapReduce のメインバージョンもアップグレードされます。 以前のバージョンのクラスターを新しいバージョンにアップグレードすることはできません。
- クラスタータイプ: 現在、E-MapReduce には 4 つのクラスタータイプがあります。
- Hadoop クラスター。これは、以下の半ば管理されたエコシステムコンポーネントを提供します。
- 大規模なオフライン分散データストレージおよびコンピューティング用の Hadoop、Hive、および Spark。
- ストリーム処理用の Spark Streaming 、Flink、および Storm。
- インタラクティブ分析を実行するための Presto と Impala。
- Oozie と Pig。
- ドルイドクラスター。半ば管理されたリアルタイムのインタラクティブな分析サービスを提供するもので、ミリ秒の待ち時間で大量のデータを照会し、複数のデータ取り込み方法をサポートします。 EMR Hadoop、EMR Spark、OSS、RDS などのサービスと共に使用すると、ドルイドクラスターはリアルタイムの照会ソリューションを提供します。
- データサイエンスクラスター。主にビッグデータと AI のシナリオに適用でき、Hive と Spark のオフラインビッグデータ、および TensorFlow モデルトレーニングを提供します。
- Kafka クラスター。高いスループットと高いスケーラビリティを特徴とする半ば管理された分散メッセージシステムで、安定した稼働環境を維持できる完全なサービスモニタリングシステムを提供します。
- Hadoop クラスター。これは、以下の半ば管理されたエコシステムコンポーネントを提供します。
- 必須サービス: 選択したクラスタータイプの下にあるすべてのソフトウェアコンポーネントのリスト (名前とバージョン番号を含む) を表示します。
- オプションのサービス: 必要に応じてさまざまなコンポーネントを選択できます。 選択したコンポーネントは、デフォルトで関連するサービスプロセスを開始します。
注 選択するコンポーネントが多いほど、これらのサービスを実行するためのリソースが不足する可能性があるため、設定の要件が高くなります。
- 高セキュリティモード: このモードでは、クラスターの Kerberos 認証を設定できます。 この機能は個々のユーザーが使用するクラスターには不要で、デフォルトではオフになっています。
- カスタム設定を有効にする: クラスターを起動する前に、JSON ファイルを指定してソフトウェア設定を変更できます。
- ハードウェアを設定します。
- 課金方法
- ECS と同様に、サブスクリプションモードと 従量課金 モードの両方がサポートされています。 サブスクリプションモードを選択した場合は、期間も選択する必要があります。 1、2、3、6、または 9 か月、あるいは 1、2、または 3 年を選択できます。 このモードは短期間のテストや柔軟な動的タスクに適用できますが、比較的高価です。
- クラスターネットワークの設定
- ゾーン: クラスターを配置するゾーンを選択します。 より良いネットワーク接続が必要な場合は、同じ可用性ゾーンを選択することを推奨します。 ただし、可用性ゾーンのストレージが不足している可能性があるため、クラスターを作成するときにこれが失敗のリスクを高めます。 多数のノードが必要な場合は、チケットを送信してください。
- ネットワークの種類: VPC (Virtual Private Cloud) ネットワークが選デフォルトで選択されているため、VPC と VSwitch を入力する必要があります。 ネットワークを作成していない場合は、VPC コンソールに移動して作成します。 E-MapReduce VPC の詳細については、VPC をご参照ください。
- VPC: VPC ネットワークのリージョンを選択します。
- VSwitch: 対応する VPC の下にある VSwitch のゾーンを選択します。 このゾーンで利用可能な VSwitch がない場合は、新しいものを作成する必要があります。
- セキュリティグループ名: セキュリティグループは通常、最初にクラスターを作成したときには存在しません。 新しいセキュリティグループを作成するには、名前を入力します。 セキュリティグループが既にある場合は、ここで選択できます。
- クラスターの設定
- 高可用性: 有効にすると、Hadoop クラスター内の 2 つのマスターインスタンスを使用して、リソースマネージャーとネームノードの可用性が確保されます。 HBase クラスターは、デフォルトで高可用性をサポートします。
- ノードタイプ: サポートされている 3 種類のノードは次のとおりです。
- マスター。主に、リソースマネージャやネームノードなどの制御プロセスの展開を担当します。
- コア。主にクラスター内のすべてのデータの格納を担当し、必要に応じて拡張できます。
- タスク。計算に使用されるノードです。 データは保存されず、クラスターの計算能力を調整するために使用されます。
- ノード設定: 異なるノードタイプを選択します。 ノードの種類が異なれば、アプリケーションのシナリオも異なります。
- データディスクの種類: クラスターノードが使用するデータディスクは、標準クラウドディスク、高効率クラウドディスク、SSD クラウドディスクのいずれかです。 これは機種やリージョンによって異なります。 ユーザーが別のリージョンを選択すると、それらのリージョンでサポートされているディスクがドロップダウンリストに表示されます。 デフォルトでは、データディスクはクラスターのリリース時に解放されます。 デフォルトでは、一時ディスクタイプが設定されており、変更できません。
- データディスク容量: 1 台のコンピューターに推奨されるクラスターの最小容量は 40 G、最大容量は 8000 G です。変更することはできません。デフォルトでは、一時ディスクの容量が設定されており、変更できません。
- インスタンス数: これは、必要なすべてのノードのインスタンス数を示します。 クラスターには少なくとも 3 つのインスタンスが必要です。 ただし、高可用性クラスターには少なくとも 4 つ必要なので、マスターノードを 1 つ追加します。
- 課金方法
- 基本情報を設定します。
- 基本情報
- クラスター名: クラスター名には、漢字、英字 (大文字と小文字)、数字、ハイフン (-)、および下線 (_) を含めることができます。長さは 1 ~ 64 文字です。
- 実行中のログ
- 実行中のログ: 実行中のログを保存する機能は、デフォルトで有効になっています。 デフォルトの状態では、実行中のログを保存する場所として OSS ディレクトリを選択できますが、この機能を使用する前に OSS をアクティブにしておく必要があります。 コストはアップロードされたファイルの数によって異なります。 OSSログ保 存機能を開くことを推奨します。この機能は、デバッグとエラーのスクリーニングに役立ちます。
- ログパス: ログを保存するための OSS パス。
- 統一メタデータベース: これは、クラスターの外部データベースにすべての Hive メタデータを格納するために、E-MapReduce によって提供されます。 クラスターが OSS を主なストレージとして使用している場合は、この機能を使用することを推奨します。
- 権限設定
- EMR ロール: このロールは、ECS や OSS など、他の Alibaba Cloud サービスを使用する権限を、E-MapReduce に付与します。
- ECS ロール: このロールにより、E-MapReduce コンピューティングノード上で実行中のプログラムは、Alibaba Cloud AccessKey を提供せずに OSS などのクラウドサービスにアクセスできます。 E-MapReduce は、アクセス権限付与のためのオンデマンドの AccessKey に自動適用されます。 AccessKey 権限はこのロールによって制御されます。
- ログイン設定
- リモートログイン: デフォルトでオンにされ、セキュリティグループポート 22 が有効になります。
- ログインパスワード: マスターノードでログインパスワードを設定します。 を含める必要があります。ログインパスワードには、英字 (大文字と小文字の両方)、数字、および特殊文字 (!@#$%^&*) を含める必要があります。長さは 8 ~ 30 文字です。
- (オプション) ブートストラップアクション: Hadoop がクラスターで有効になる前に、カスタマイズしたスクリプトを実行できます。 詳細は、ブートストラップアクション をご参照ください。
- 基本情報
クラスターのコストは [設定リスト] ウィンドウに表示されます。 価格は支払いの種類によって異なります。 サブスクリプションクラスターの場合、総費用が表示されます。 従量課金クラスターの場合、1 時間ごとのコストが表示されます。
作成の確認
必要な情報をすべて入力したら、[作成] ボタンが強調表示されます。 [作成] をクリックして、クラスターを作成します。
注
- クラスターが従量課金の場合はすぐに作成され、[概要] ページに戻ります。 ここでは、クラスターは [初期化中] というステータスで表示されます。 クラスターの作成が完了するまで数分かかることがあります。 クラスターが作成されると、そのステータスは [アイドル] に切り替わります。
- 注文が生成されて支払われるまで、サブスクリプションクラスターは作成されません。
コアノードへのログイン
コアノードにログインするには、以下の手順を実行します。
- マスターノードで Hadoop アカウントに切り替えます。
su hadoop
- 鍵なしで SSH を介してコアノードにログインします。
ssh emr-worker-1
- sudo コマンドで root 権限を取得します。
sudo vi /etc/hosts
クラスター作成中の失敗
クラスターの作成に失敗した場合、[クラスターの作成に失敗しました] というメッセージが、クラスターリストページに表示されます。 赤い感嘆符の上にカーソルを置くと、失敗の理由が表示されます。
対応するコンピューティングのリソースが作成されないため、追加の操作を実行する必要はありません。 クラスターは 3 日後に自動的に非表示となります。