全部產品
Search
文件中心

E-MapReduce:建立DataFlow Kafka叢集

更新時間:Jul 01, 2024

本文為您介紹建立DataFlow Kafka叢集(選擇了Kafka服務)的詳細操作步驟和相關配置。

注意事項

建立DataFlow Kafka叢集前,您需要根據業務的預估負載,選擇合適的ECS執行個體機型以及Broker執行個體個數。由於業務情境差異很大,所以無法給出通用的叢集規劃,您需要根據您的實際環境建立叢集。通常,建議您選擇機型時考慮以下配置:
  • Broker機型的CPU和記憶體配比為1:4。
  • 選擇雲端硬碟作為資料存放區盤。
  • 充分考慮雲端硬碟的IO吞吐率以及網卡頻寬之間的關係。
在部署參數上,考慮以下因素:
  • 由於EMR Kafka版本仍依賴於Zookeeper,且Zookeeper的可用性直接關係到Kafka服務的高可用,因此,建議您建立叢集時,選擇高可用的部署方式。啟用高可用後,將建立3個節點的Zookeeper服務。
  • 如果Master機器組只部署Zookeeper,則Master機器組只需要配置1塊資料盤即可。

更詳細的評估建議,請參見叢集資源規格評估建議

操作步驟

  1. 進入建立叢集頁面。

    1. 可選:在頂部功能表列處,根據實際情況選擇地區和資源群組。
      • 地區:建立的叢集將會在對應的地區內,一旦建立不能修改。
      • 資源群組:預設顯示帳號全部資源。
    2. 單擊上方的建立叢集,進行建立。
  2. 配置叢集資訊。
    建立叢集時,您需要對叢集進行軟體配置、硬體設定和基礎配置。
    重要 叢集建立完成後,除了叢集名稱以外,其他配置均無法修改,所以在建立時請仔細確認各項配置。
    1. 軟體配置。
      Create Kafka
      配置項樣本描述
      地區華東1(杭州)建立的叢集將會在對應的地區內,一旦建立不能修改。
      業務情境即時資料流情境選擇即時資料流情境
      產品版本EMR-3.43.1選擇EMR版本後,您可以查看各服務的版本。

      例如,EMR-3.43.1版本中的Kafka為2.12_2.4.1,其中2.12表示Scala的版本,2.4.1為開源Kafka的版本。

      服務高可用開啟預設不開啟。
      重要 啟用高可用後,將在Master機器組上部署3個節點的Zookeeper服務。由於EMR Kafka版本的服務可用性仍依賴於Zookeeper,所以建議您建立叢集時,選擇高可用的部署方式。
      可選服務Kafka

      選擇Kafka服務。

      您也可以根據您的實際需求選擇其他的一些組件,被選中的組件會預設啟動相關的服務進程。
      進階設定不開啟軟體自訂配置:可指定JSON檔案對叢集中的基礎軟體(例如Hadoop、Spark和Hive等)進行配置。預設不開啟。
    2. 硬體設定。
      配置項樣本描述
      付費類型隨用隨付預設訂用帳戶。當前支援的付費類型如下:
      • 隨用隨付:一種後付費模式,即先使用再付費。隨用隨付是根據實際使用的小時數來支付費用,每小時計費一次,適合短期的測試工作或是靈活的動態任務。
      • 訂用帳戶:一種預付費模式,即先付費再使用。
        說明

        建議測試情境下使用隨用隨付,測試正常後再建立一個訂用帳戶的生產叢集正式使用。

      可用性區域華東1(杭州) 可用性區域 I可用性區域為在同一地區下的不同物理地區,可用性區域之間內網互連。通常使用預設的可用性區域即可。
      專用網路emr_test/vpc-bp1f4epmkvncimpgs****預設選擇已有的專用網路。

      如需建立新的專用網路,請在專用網路控制台新建立一個,詳情請參見建立和管理專用網路

      交換器vsw_test/vsw-bp1e2f5fhaplp0g6p****選擇在對應VPC下可用性區域的交換器,如果在這個可用性區域沒有可用的交換器,則需要在專用網路控制台新建立一個,詳情請參見建立和管理交換器
      預設安全性群組sg-bp1ddw7sm2risw****/sg-bp1ddw7sm2risw****預設選擇已有的安全性群組。安全性群組詳情請參見安全性群組概述

      您也可以單擊建立安全性群組,在ECS控制台建立一個安全性群組,詳情請參見建立安全性群組

      重要 禁止使用ECS上建立的企業安全性群組。
      節點群組根據實際情況配置
      • 執行個體類型:您可以根據需要或者評估建議選擇執行個體規格。評估建議詳情,請參見叢集資源規格評估建議
      • 加入部署集:開啟高可用後,Master預設加入部署集,詳情請參見開啟部署集
      • 系統硬碟:根據需要選擇系統硬碟。
      • 系統硬碟大小:根據需要調整磁碟容量,推薦至少120 GiB。取值範圍為80 ~ 500 GiB。
      • 資料盤:根據需要選擇資料盤。
        說明 建議選擇雲端硬碟。
      • 資料盤大小:根據需要調整磁碟容量,推薦至少80 GiB。取值範圍為40 ~ 32768 GiB。
      • 執行個體數量:預設3台Master,3台Core。
      • 附加安全性群組:您可以為該節點群組關聯最多2個附加安全性群組,附加安全性群組可以靈活定製不同的外部資源或應用程式之間的訪問。
      • 掛載公網:叢集是否掛載Elastic IP Address地址,預設不開啟。
        說明 建立後如果您需要使用公網IP地址訪問,請在ECS上申請開通公網IP地址,詳情請參見Elastic IP Address中的申請EIP的內容。
    3. 基礎配置。
      基礎資訊地區,配置如下參數。
      重要 暫不支援進階配置地區的參數,因此請勿設定。
      配置項樣本描述
      叢集名稱Emr-Kafka叢集的名字,長度限制為1~64個字元,僅可使用中文、字母、數字、短劃線(-)和底線(_)。
      身份憑證自訂密碼金鑰組(預設):使用SSH金鑰組登入Linux執行個體。

      關於金鑰組的使用詳情,請參見SSH金鑰組

      密碼:設定Master節點的登入密碼,使用密碼對登入Linux執行個體。

      密碼規則:8~30個字元,且必須同時包含大寫字母、小寫字母、數字和特殊字元。

      特殊字元包括:驚嘆號(!)、at(@)、井號(#)、貨幣符號($)、百分比符號(%)、乘方(^)、and(&)和星號(*)。

      進階設定根據需求配置
    4. 確認訂單頁面,選中E-MapReduce服務條款複選框。
    5. 單擊建立
      建立叢集後可以通過重新整理頁面來查看進度,當叢集狀態顯示為運行中時,表示叢集建立成功。

    後續步驟

    叢集建立成功後,您可以根據實際的業務情境,修改叢集的預設參數,使叢集正式交付生產時符合相關的要求。例如: