Alibaba Cloud E-MapReduce (EMR) を使用すると、Hadoop、Spark、Hive、Presto などのオープンソースのビッグデータフレームワークを構築および実行して、大規模なデータ処理と分析を行うことができます。このトピックでは、EMR コンソールの ECS 上の EMR ページで EMR クラスタを作成する方法について説明します。
説明 2022 年 12 月 19 日 17:00 (UTC + 08:00) 以降に初めて EMR クラスタを作成する場合、Hadoop、Data Science、Presto、または ZooKeeper クラスタを作成することはできません。
注意事項
EMR V5.12.1、EMR V3.46.1、または EMR V5.12.1 または EMR V3.46.1 より後のマイナーバージョンの DataLake クラスタ、Dataflow クラスタ、DataServing クラスタ、またはカスタムクラスタを作成する場合、選択したサービスが新しく追加されたタスクノードグループのノードに依存していない場合は、[ノードグループ] セクションのタスクノードグループの [操作] 列にある [ノードグループの削除] をクリックできます。
手順
EMR コンソール にログインします。左側のナビゲーションウィンドウで、[ECS 上の EMR] をクリックします。
上部のナビゲーションバーで、クラスタを作成するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
ECS 上の EMR ページで、[クラスタの作成] をクリックします。
プロンプトに従ってクラスタを構成します。
クラスタを作成する際には、ソフトウェア、ハードウェア、および基本情報を構成し、クラスタの注文を確認する必要があります。
説明 クラスタが作成された後、クラスタ名以外のそのパラメータを変更することはできません。クラスタを作成する際には、すべてのパラメータが正しく構成されていることを確認してください。
すべての構成が正しいことを確認した後、[確認] をクリックします。
パラメータの説明
ソフトウェアパラメータ
パラメータ | 説明 |
リージョン | クラスタの Elastic Compute Service (ECS) インスタンスが配置されている地理的な場所。ネットワーク遅延を最小限に抑えるために、地理的な場所に近接したリージョンを選択してください。クラスタの作成後、リージョンを変更することはできません。 ドロップダウンリストからリージョンを選択します。 |
ビジネスシナリオ | ビジネス要件に基づいてビジネスシナリオを選択します。有効な値: データレイク:柔軟性、信頼性、効率性に優れたデータ分析を可能にするビッグデータコンピューティングエンジンを提供します。 詳細については、「DataLake クラスタ」をご参照ください。 データ分析:ユーザープロファイリング、受信者選択、BI レポート、ビジネス分析など、さまざまなビジネスシナリオの要件を満たす、効率的でリアルタイムの柔軟なデータ分析機能を提供します。データをインポートするか、外部テーブルを使用して、ClickHouse や StarRocks などのオンライン分析処理 (OLAP) エンジンにデータを書き込んで分析できます。 リアルタイムデータストリーミング:エンドツーエンド (E2E) のリアルタイムコンピューティングソリューションを提供します。Dataflow クラスタには、高スループットとスケーラビリティを備えた分散メッセージシステムである Kafka と、Apache Flink を搭載した Ververica が提供する商用 Flink カーネルが組み込まれています。これらのクラスタは、さまざまな E2E リアルタイムコンピューティングの問題を解決するために使用され、リアルタイムデータの抽出、変換、書き出し (ETL)、およびログの収集と分析のシナリオで広く使用されています。2 つのコンポーネントのいずれか、または両方を使用できます。 データサービス: 柔軟性、信頼性、効率性に優れたデータ分析を可能にする DataServing クラスタを提供します。 セミマネージド HBase クラスタを提供し、OSS-HDFS (JindoFS) サービスに基づいてコンピューティングクラスタとデータストレージを切り離すことができます。 JindoData を使用したデータキャッシングをサポートしており、DataServing クラスタの読み取り/書き込みパフォーマンスを向上させます。
詳細については、「DataServing クラスタ」をご参照ください。 カスタムクラスタ:さまざまなサービスを提供します。ビジネス要件に基づいてサービスを選択できます。
説明 本番環境では、同じノードグループに複数のストレージサービスをデプロイしないことをお勧めします。
|
製品バージョン | EMR のバージョン。詳細については、「リリースバージョン」をご参照ください。 |
高サービス可用性 | デフォルトでは、このスイッチはオフになっています。このスイッチをオンにすると、ResourceManager プロセスと NameNode プロセスの高可用性を確保するために、クラスタ内に複数のマスターノードが作成されます。さらに、EMR は、障害のリスクを軽減するために、マスターノードをさまざまな基盤となるハードウェアデバイスに分散させます。 |
オプションサービス (少なくとも 1 つ選択) | クラスタ用に選択できるサービス。ビジネス要件に基づいてサービスを選択できます。選択したサービスに関連するプロセスは自動的に開始されます。
重要 選択するサービスが多いほど、クラスタがサービスを処理するために必要なインスタンスの仕様が高くなります。ハードウェアを構成する際には、指定したサービスの数に一致するインスタンスタイプを選択する必要があります。そうしないと、クラスタがサービスを実行するのにリソースが不足する可能性があります。 サービスは、EMR クラスタにデプロイされた後はアンインストールできません。 構成する必要のあるパラメータは、選択した製品バージョンとサービスによって異なります。
|
サービス運用ログの収集 | すべてのサービスのログ収集を有効にするかどうかを指定します。デフォルトでは、このスイッチはオンになっており、クラスタのサービス運用ログを収集します。ログはクラスタの診断にのみ使用されます。 クラスタを作成した後、[基本情報] タブで [サービス運用ログの収集ステータス] パラメータを変更できます。 |
メタデータ | メタデータを保存および管理する方法。有効な値: DLF 統合メタデータ:メタデータは Data Lake Formation (DLF) に保存されます。この方法を選択することをお勧めします。 DLF をアクティブ化すると、システムはメタデータを保存するために [DLF カタログ] を選択します。デフォルトでは、アカウントの ID が使用されます。異なるクラスタを異なる DLF カタログに関連付ける場合は、次の操作を実行して DLF カタログを作成できます。 [カタログの作成] をクリックします。表示されるポップオーバーで、カタログ ID を入力し、[OK] をクリックします。 [DLF カタログ] ドロップダウンリストから、作成したカタログを選択します。
セルフマネージド RDS:メタデータは、セルフマネージドまたは Alibaba Cloud ApsaraDB RDS データベースに保存されます。 [セルフマネージド RDS] を選択した場合は、既存の ApsaraDB RDS データベースのパラメータを構成する必要があります。詳細については、「セルフマネージド ApsaraDB RDS for MySQL データベースを構成する」をご参照ください。 組み込み Mysql:メタデータは、クラスタのローカル MySQL データベースに保存されます。この方法は推奨されません。
|
クラスタのルートストレージディレクトリ | クラスタデータのルートストレージディレクトリ。このパラメータは、OSS-HDFS サービスを選択した場合にのみ必須です。
重要 [OSS-HDFS バケットの作成] をクリックしてバケットを作成した場合、EMR コンソールでのみバケットからデータを読み取ったり、バケットにデータを書き込んだりできます。OSS コンソールまたは指定された API を使用してバケットで操作を実行することはできません。 OSS-HDFS を初めて使用する場合は、プロンプトに従って 権限付与を完了 する必要があります。RAM ユーザーを使用する場合は、AliyunEMRDlsFullAccess ポリシーをアタッチし、Alibaba Cloud アカウントを使用して AliyunOSSDlsDefaultRole ロールと AliyunEMRDlsDefaultRole ロールを RAM ユーザーに割り当てる必要があります。詳細については、「RAM ユーザーに権限を付与する」をご参照ください。同じリージョンで OSS-HDFS が有効になっているバケットを選択するか、[OSS-HDFS バケットの作成] をクリックして、クラスタのルートストレージパスとして OSS-HDFS バケットを作成します。
説明 OSS-HDFS サービスを使用する前に、クラスタを作成するリージョンで OSS-HDFS サービスが利用可能であることを確認してください。リージョンで OSS-HDFS サービスが利用できない場合は、リージョンを変更するか、OSS-HDFS の代わりに HDFS を使用できます。OSS-HDFS が利用可能なリージョンの詳細については、「OSS-HDFS を有効にしてアクセス権限を付与する」をご参照ください。 新しいデータレイクシナリオの DataLake クラスタ、Dataflow クラスタ、DataServing クラスタ、または EMR V5.12.1、EMR V3.46.1、または EMR V5.12.1 または EMR V3.46.1 より後のマイナーバージョンのカスタムクラスタを作成する際に、OSS-HDFS サービスを選択できます。
|
サービスと製品バージョンに関連するパラメータ
選択したサービスと製品バージョンに基づいて、次のパラメータを構成する必要があります。
EMR V5.12.0、EMR V3.46.0、または EMR V5.12.0 または EMR V3.46.0 より前のマイナーバージョンのクラスタを作成し、クラスタの Hive サービスを選択した場合は、次のパラメータを構成する必要があります。
パラメータ | 説明 |
Hive ストレージモード | Hive データのストレージモード。OSS-HDFS または OSS ディレクトリがストレージに使用されます。デフォルトでは、データレイクストレージが選択されています。チェックボックスをオフにすると、クラスタの HDFS がストレージに使用されます。 チェックボックスをオフにしない場合は、[hive データウェアハウスパス] パラメータを構成する必要があります。OSS-HDFS サービスが有効になっているバケットを選択することをお勧めします。
説明 選択した OSS または OSS-HDFS バケットにアクセスするために必要な権限があることを確認してください。 |
EMR V5.12.0、EMR V3.46.0、または EMR V5.12.0 または EMR V3.46.0 より前のマイナーバージョンのクラスタを作成し、クラスタの HBase サービスを選択した場合は、次のパラメータを構成する必要があります。
パラメータ | 説明 |
Hbase ストレージモード | HBase データファイルのストレージモード。有効な値:OSS-HDFS と OSS。 [HBase ストレージモード] パラメータを OSS-HDFS に設定した場合は、[hbase ストレージパス] パラメータを構成する必要があります。OSS-HDFS サービスが有効になっているバケットを選択することをお勧めします。 |
EMR V5.12.1 以降のマイナーバージョン、または EMR V3.46.1 以降のマイナーバージョンのクラスタを作成し、クラスタの OSS-HDFS サービスと HBase サービスを選択した場合は、次のパラメータを構成する必要があります。クラスタが作成されると、HBase-HDFS サービスが自動的にデプロイされます。詳細については、「HBase-HDFS」をご参照ください。
パラメータ | 説明 |
Hbase ログストレージ | このチェックボックスはデフォルトでオンになっており、HBase が HLog ファイルを HDFS に保存することを示します。 |
詳細
重要 2022 年 12 月 19 日 17:00 (UTC + 08:00) 以降に初めて EMR クラスタを作成する場合、Data Science、Hadoop、Presto、または ZooKeeper クラスタを作成することはできません。
(オプション) 詳細設定
パラメータ | 説明 |
Kerberos 認証 | クラスタの Kerberos 認証を有効にするかどうかを指定します。このスイッチはデフォルトではオフになっています。Kerberos は、対称鍵暗号に基づく身分認証プロトコルです。Kerberos は、他のサービスに身分認証機能を提供します。詳細については、「概要」をご参照ください。 |
カスタムソフトウェア構成 | ソフトウェアの構成をカスタマイズするかどうかを指定します。JSON ファイルを使用して、Hadoop、Spark、Hive など、クラスタに必要な基本ソフトウェアの構成をカスタマイズできます。詳細については、「ソフトウェア構成をカスタマイズする」をご参照ください。 |
ハードウェアパラメータ
パラメータ | 説明 |
課金方法 | クラスタの課金方法。デフォルトでは、サブスクリプションが選択されています。EMR は、次の課金方法をサポートしています。 従量課金:インスタンスを使用した後にインスタンスの料金を支払うことができる課金方法。システムは、クラスタが実際に使用された時間に基づいてクラスタの料金を請求します。請求書は、毎時間の上部に 1 時間ごとに生成されます。短期間のテストジョブまたは動的にスケジュールされたジョブには、従量課金クラスタを使用することをお勧めします。 サブスクリプション:インスタンスの料金を支払った後にのみインスタンスを使用できる課金方法。
説明 テスト実行には、[従量課金] クラスタを作成することをお勧めします。クラスタがテストに合格した場合は、本番用に [サブスクリプション] クラスタを作成できます。 [課金方法] で [サブスクリプション] を選択した場合は、[サブスクリプション期間] パラメータと [自動更新] パラメータも構成する必要があります。デフォルトでは、サブスクリプション期間は 6 か月で、[自動更新] スイッチはオンになっています。[自動更新] をオンにすると、システムは有効期限の 7 日前にサブスクリプションをさらに 1 か月更新します。詳細については、「更新ポリシー」をご参照ください。
|
ゾーン | クラスタを作成するゾーン。リージョン内のゾーンは、独立した電源とネットワーク設備を備えた物理的なエリアです。同じリージョン内のゾーンにあるクラスタは、内部ネットワークを介して相互に通信できます。ほとんどの場合、デフォルトで選択されているゾーンを使用できます。 |
VPC | クラスタをデプロイする Virtual Private Cloud (VPC)。VPC は、完全に制御できる論理的に分離されたネットワークです。 既存の VPC を選択するか、[VPC の作成] をクリックして、VPC コンソールで VPC を作成できます。詳細については、「VPC を作成および管理する」をご参照ください。
説明 クラスタの内部 IP アドレスは VPC に関連付けられています。そのため、クラスタの作成後に内部 IP アドレスを変更することはできません。 |
vSwitch | クラスタの vSwitch。vSwitch は VPC の基本コンポーネントです。vSwitch を使用すると、クラウドリソース間のネットワーク通信を確立できます。 既存の vSwitch を選択するか、[vswitch の作成] をクリックして、VPC コンソールで vSwitch を作成できます。詳細については、「vSwitch を作成および管理する」をご参照ください。 |
デフォルトセキュリティグループ | クラスタのセキュリティグループ。セキュリティグループは、セキュリティグループ内のインスタンスのインバウンドトラフィックとアウトバウンドトラフィックを制御するために使用される仮想ファイアウォールです。詳細については、「概要」をご参照ください。 既存のセキュリティグループを選択するか、[新しいセキュリティグループの作成] をクリックして、ECS コンソールでセキュリティグループを作成できます。詳細については、「セキュリティグループの作成」をご参照ください。
重要 ECS コンソールで作成された高度なセキュリティグループは使用しないでください。 |
ノードグループ | クラスタのノードグループ。ビジネス要件に基づいてインスタンスタイプを選択できます。詳細については、「インスタンスファミリ」をご参照ください。 マスターノードグループ:ResourceManager や NameNode などの制御プロセスを実行します。 コアノードグループ:クラスタのすべてのデータを保存します。クラスタの作成後に、ビジネス要件に基づいてコアノードを追加できます。 タスクノードグループ:データは保存されず、クラスタのコンピューティング能力を調整するために使用されます。デフォルトでは、タスクノードグループは構成されていません。ビジネス要件に基づいてタスクノードグループを構成できます。
重要 タスクノードグループの [課金方法] パラメータには、[従量課金]、[プリエンプティブルインスタンス]、または [サブスクリプション] を選択できます。 デプロイメントセットに追加:[高サービス可用性] スイッチをオンにすると、マスターノードはデフォルトでデプロイメントセットに追加されます。デプロイメントセットは、ECS インスタンスの分散を制御するために使用されます。詳細については、「デプロイメントセット」をご参照ください。 システムディスク:ビジネス要件に基づいて、標準 SSD、拡張 SSD、または Ultra ディスクを選択できます。ビジネス要件に基づいてシステムディスクのサイズを調整できます。 データディスク:ビジネス要件に基づいて、標準 SSD、拡張 SSD、または Ultra ディスクを選択できます。ビジネス要件に基づいてデータディスクのサイズを調整できます。
説明 拡張 SSD を選択した場合、ディスク容量に基づいて拡張 SSD に異なるパフォーマンスレベル (PL) を指定し、さまざまなクラスタのパフォーマンス要件に対応できます。デフォルトのパフォーマンスレベルは PL1 です。システムディスクを構成する場合は、PL0、PL1、および PL2 のパフォーマンスレベルの拡張 SSD を選択できます。データディスクを構成する場合は、PL0、PL1、PL2、および PL3 のパフォーマンスレベルの拡張 SSD を選択できます。詳細については、「ディスク」をご参照ください。 インスタンス:デフォルトでは、1 つのマスターノードが構成されています。[高サービス可用性] スイッチをオンにすると、複数のマスターノードを構成できます。 デフォルトでは、コアノードグループに 2 つのコアノードが構成されています。ビジネス要件に基づいてコアノードの数を変更できます。 追加セキュリティグループ:追加セキュリティグループを使用すると、さまざまな外部リソースとアプリケーション間のインタラクションが可能になります。ノードグループには最大 2 つの追加セキュリティグループを関連付けることができます。 パブリックネットワーク IP の割り当て:クラスタに EIP アドレスを関連付けるかどうかを指定します。このスイッチはデフォルトではオフになっています。パブリック IP アドレスは、DataLake クラスタのノードグループにのみ割り当てることができます。
説明 このスイッチをオンにしないが、クラスタの作成後にインターネット経由でクラスタにアクセスする場合は、ECS でパブリック IP アドレスを申請する必要があります。EIP アドレスの申請方法については、「Elastic IP アドレス」をご参照ください。
|
クラスタスケーリング | 自動スケーリングルールを使用するかどうかを指定します。有効な値: 自動スケーリングルールを使用しない。これはデフォルト値です。 カスタム自動スケーリングルール:時間ベースまたは負荷ベースの自動スケーリングを実装するために、クラスタのカスタム自動スケーリングルールを構成できます。 マネージド自動スケーリングルール:クラスタを起動した後、EMR は構成されたマネージド自動スケーリングルールに基づいてクラスタ内のタスクノードの数を動的に調整します。
|
基本パラメータ
パラメータ | 説明 |
クラスタ名 | クラスタの名前。名前は 1 ~ 64 文字の長さで、文字、数字、ハイフン (-)、およびアンダースコア (_) のみを含めることができます。 |
身分証明書 | クラスタのマスターノードにログインするために使用される 証明書。詳細については、「クラスタにログインする」をご参照ください。有効な値: キーペア (デフォルト):既存のキーペアを選択するか、[キーペアの作成] をクリックしてキーペアを作成します。 キーペアは、ECS インスタンスのログイン用に提供される安全で便利な認証方法です。Linux インスタンスのみがキーペアベースの認証をサポートしています。キーペアの使用方法については、「SSH キーペアの概要」をご参照ください。 パスワード:マスターノードのパスワードを構成し、パスワードを確認します。デフォルトでは、ユーザー名は root です。
|
(オプション) 詳細設定
パラメータ | 説明 |
ECS アプリケーションロール | クラスタに ECS アプリケーションロールを割り当てることができます。クラスタの計算ノードで実行されているアプリケーションが OSS などの他の Alibaba Cloud サービスにアクセスするときに、EMR は一時的な AccessKey ペアを申請します。このようにして、AccessKey ペアを手動で入力する必要はありません。ビジネス要件に基づいて、特定の Alibaba Cloud サービスに対するアプリケーションロールのアクセス権限を付与できます。 |
ブートストラップ操作 | クラスタが起動する前にカスタムスクリプトを実行するようにブートストラップ操作を構成できます。ブートストラップ操作を使用して、サードパーティ製ソフトウェアをインストールしたり、クラスタのランタイム環境を変更したりできます。詳細については、「ブートストラップ操作を管理する」をご参照ください。 |
リリース保護 | 従量課金クラスタの作成時またはクラスタの作成後に [リリース保護] をオンにして、クラスタが誤ってリリースされるのを防ぐことができます。クラスタのリリース保護を有効にした後、クラスタを直接リリースすることはできません。クラスタをリリースするには、リリース保護を無効にする必要があります。詳細については、「リリース保護を有効および無効にする」をご参照ください。 |
タグ | クラスタの作成時にタグを追加したり、クラスタの作成後に [基本情報] タブでタグを追加したりできます。タグは、クラスタリソースを識別および管理するのに役立ちます。詳細については、「タグを管理および使用する」をご参照ください。 |
リソースグループ | 使用状況、権限、および所有権に基づいてリソースをグループ化できます。詳細については、「リソースグループを使用する」をご参照ください。 |
データディスクの暗号化 | このスイッチは、クラスタの作成時にのみオンにできます。このスイッチをオンにすると、転送中のデータとディスク上の保存データの両方が暗号化されます。詳細については、「データディスクの暗号化を有効にする」をご参照ください。 |
システムディスクの暗号化 | このスイッチは、クラスタの作成時にのみオンにできます。EMR クラスタのシステムディスクの暗号化機能を有効にすると、システムディスク上のオペレーティングシステム、プログラムファイル、およびその他のシステム関連データが暗号化されます。詳細については、「システムディスクの暗号化を有効にする」をご参照ください。 |
備考 | 備考は、EMR クラスタに関する重要な情報を記録するために使用されます。クラスタの作成後に、[基本情報] タブで備考を変更できます。クラスタの作成時に [備考] パラメータを構成しない場合は、クラスタの作成後に備考を追加できます。 |
注文の確認
オプション。身分認証に [キーペア] が使用されている場合は、[クラスタテンプレートとして保存] をクリックして、現在のクラスタの構成をクラスタテンプレートとして保存できます。
クラスターテンプレートとして保存 ダイアログボックスで、クラスターテンプレート名 パラメータと [クラスタテンプレートリソースグループ] パラメータを構成します。
パラメータ | 説明 |
クラスターテンプレート名 | テンプレート管理を容易にするために、クラスタテンプレート名を入力します。名前は 1 ~ 64 文字の長さで、文字、数字、ハイフン (-)、およびアンダースコア (_) のみを含めることができます。 |
クラスタテンプレートリソースグループ | ビジネス要件に基づいて既存のリソースグループを選択して、クラスタテンプレートをグループ別に管理します。 新しいリソースグループを使用する場合は、[リソースグループの作成] をクリックして作成します。詳細については、「リソースグループの作成」をご参照ください。 |
[OK] をクリックします。
クラスターテンプレートの管理 パネルでクラスタテンプレートが作成されます。クラスタテンプレートの詳細については、「クラスタテンプレートの作成」をご参照ください。