叢集管理的常見問題 - E-MapReduce

本文匯總了叢集管理的常見問題。

EMR叢集是否支援升級版本？
高可用叢集為什麼部署3個Master節點？
EMR支援在控制台新增Zeppelin組件嗎？
如何開啟磁碟加密？開啟後有什麼影響？
如何清理建立失敗的叢集？
建立叢集時報錯“ECS庫存不足”，該如何處理？
是否支援磁碟的擴縮容？
是否支援叢集的擴縮容？
擴容叢集如何指定磁碟大小？
什麼情境下開啟部署集？
擴容叢集如何指定部署集？
叢集建立後如何綁定公網IP？
如何更換節點群組ECS執行個體的配置？
擴容時報錯“The specified parameter AddNumber is not valid”，該如何處理？
擴容時報錯“ECS庫存不足”，該如何處理？
如何停止採集服務日誌？
如何登入叢集的節點？
如何查看執行個體所屬交換器？
大規模叢集網路丟包如何解決？
收到ECS系統事件SystemMaintenance.Redeploy後，應該如何處理？
EMR叢集下的ECS執行個體相關雲端硬碟如何預設添加EMR叢集ID標籤？
報錯：IdempotentParameterMismatch
報錯：QuotaExceeded.PrivateIpAddress
報錯：LostProxy
建立、擴容、升配叢集時報錯“賬戶餘額不足”，該如何處理？
擴容叢集、擴容磁碟時報錯：QuotaExceed.DiskCapacity
建立叢集、擴容時報錯：QuotaExceed.DiskCapacity
引導指令碼執行失敗，該如何處理？
服務類常見問題
- EMR叢集都支援哪些服務？
- 修改服務配置後，是否需要重啟服務？
- 建立叢集後，還支援新增服務嗎？
- EMR的滾動重啟是什麼意思？
- 如何刪除不需要的服務？
- EMR支援Oozie服務嗎？如果不支援是否有替代方案？
EMR Doctor常見問題
- 服務作業記錄收集哪些資訊？
- 哪些叢集類型支援EMR Doctor功能？
- EMR Doctor在安裝和升級過程中，是否會對叢集組件和叢集任務產生影響？
- EMR Doctor都會採集哪些資料？
- EMR Doctor收費嗎？
- 採集操作會對任務的運行會產生什麼影響？
- 什麼時候可以看到採集報告？
- 可以給出配置的具體參數值嗎？

EMR叢集是否支援升級版本？

EMR叢集不支援升級，也不能進行服務的升級。如果有升級需求，請釋放叢集並重新建立叢集。

EMR叢集都支援哪些服務？

不同版本、不同叢集支援的服務有所不同，詳情請參見發行版本。

EMR支援在控制台新增Zeppelin組件嗎？

EMR不支援通過控制台以新增服務的方式安裝Zeppelin組件。如需新增Zeppelin，您可以在任一Master節點的ECS伺服器上進行安裝。其他無法在控制台中新增的組件，您也可以在底層ECS伺服器上自行安裝和維護。有關更多叢集情境及其支援新增的服務，請參見新增服務。

EMR支援Oozie服務嗎？如果不支援是否有替代方案？

EMR DataLake叢集（EMR-5.8.0和EMR-3.42.0及以上版本）不再包含Oozie組件。如果您需要使用工作流程調度服務，可以通過EMR Workflow來實現，詳情請參見什麼是EMR Workflow。

高可用叢集為什麼部署3個Master節點？

新版EMR高可用叢集採用3 Master節點，比2 Master更具可靠性。現在已不支援2 Master節點。

對於高可用叢集，EMR會把Master節點分布在不同的底層硬體上以降低故障風險。

如何開啟磁碟加密？開啟後有什麼影響？

您可以在建立叢集頁面基礎配置階段的進階配置地區，選擇是否開啟資料盤加密，詳情請參見開啟資料盤加密。

重要

僅支援在建立叢集時開啟資料盤加密，叢集建立後無法開啟該功能。

加密資料盤後，資料盤上的動態資料傳輸以及待用資料都會被加密。如果您的業務存在安全合規要求，則可以使用該功能。資料盤加密後在ECS的OS層面對應用是透明的，因此不會影響作業運行。

如何清理建立失敗的叢集？

叢集建立失敗，通常是由於RDS配置錯誤導致叢集部署失敗，或者是由於部分ECS沒有庫存導致的。

如果在建立過程中，叢集已經建立出來部分ECS執行個體，且叢集狀態為啟動失敗，這時需要您前往ECS控制台釋放該部分ECS執行個體，在您的ECS執行個體全部被釋放後，EMR叢集將會自動釋放。

如果在建立過程中，EMR部署失敗，且叢集狀態為異常終止，此時叢集不存在任何資源，也不存在任何收費，您可以單擊目的地組群操作列的刪除，清除該叢集。

建立叢集後，還支援新增服務嗎？

EMR支援在叢集建立成功後新增部分未安裝的服務，詳情請參見新增服務。

重要

新增服務後，因為部分服務需要手動修改配置並進行重啟，所以請在業務低峰期進行新增服務作業。
因為各版本的服務有差異，所以具體待添加的服務請以控制台介面顯示為準。

修改服務配置後，是否需要重啟服務？

EMR叢集的Spark、Hive、HDFS等服務端類型配置修改後，需要重啟服務才會生效。EMR叢集的用戶端類型配置修改後，只需要單擊部署用戶端配置就能生效，不用重啟服務。修改或添加配置項的具體操作請參見管理配置項。

EMR的滾動重啟是什麼意思？

滾動重啟機制是指在一個ECS執行個體重啟完成且該執行個體上的巨量資料服務全部恢複後，再啟動下一個ECS執行個體。每個節點重啟耗時約5分鐘。

叢集建立後如何綁定公網IP？

您可以單獨申請EIP地址，並綁定到未分配公網IP地址的Virtual Private Cloud類型的執行個體上，使ECS執行個體可以通過公網訪問，詳情請參見綁定EIP。

什麼情境下開啟部署集？

部署集是阿里雲ECS（Elastic Compute Service）提供的能力，用於控制ECS執行個體分布的策略。建議為使用本地碟機型的Core節點群組開啟部署集功能來提升資料安全性。開啟部署集可防止多個ECS執行個體部署在同一個物理機上，避免當某個物理機發生故障時影響多個ECS執行個體，導致EMR本地HDFS資料丟失。

受ECS部署集本身的限制，目前最多支援20台ECS執行個體加入部署集。具體操作請參見開啟部署集。

擴容叢集如何指定部署集？

預設本地碟機型會開啟部署集，其他機型關閉部署集，您可以根據需要自行調整。開啟部署集的具體操作，請參見開啟部署集。

擴容叢集如何指定磁碟大小？

擴容時新節點的磁碟大小跟隨節點群組設定，無法修改。如有需要，您可以調整節點群組的磁碟大小。磁碟擴容的具體操作，請參見擴容磁碟。

是否支援磁碟的擴縮容？

僅支援資料盤擴容，不支援資料盤縮容，不支援系統硬碟擴容或縮容。

您可以在目的地組群的節點管理頁簽，單擊目標節點群組的磁碟擴容，對資料盤進行擴容。具體操作，請參見擴容磁碟。

是否支援叢集的擴縮容？

支援，但不同節點類型的擴縮容規則有所不同：

擴容：僅支援擴充Core節點和Task節點，且新擴充節點的配置預設與已有節點一致。您在擴容時，需確認對應訂單已經全部支付，如果存在待支付訂單，將造成擴容失敗。擴容具體操作，請參見擴容叢集。
縮容：但不同節點類型的擴縮容規則有所不同。具體規則如下：
- Task節點群組：支援縮容，請參見縮容叢集。
- Core節點群組：支援縮容，請參見手工縮容Core節點群組。

如何更換節點群組ECS執行個體的配置？

僅訂用帳戶叢集支援通過升配來更換節點群組ECS執行個體的配置，且暫不支援降配。

您可以在訂用帳戶的目的地組群的節點管理頁簽，選擇Master和Core節點群組的 > 配置升級，升級節點群組的配置，詳情請參見升級節點配置。

擴容時報錯“The specified parameter AddNumber is not valid”，該如何處理？

問題現象：在叢集擴容中遇到報錯資訊The specified parameter AddNumber is not valid. add instances number :xxx larger than deploymentSet availableAmount: xxx deploymentSetId: ds-uf6gwfou0a13kekupt14xxxx。
問題原因：該錯誤表示您叢集已開啟部署集功能，且節點群組的節點數已到達部署集上限，部署集詳情請參見開啟部署集。
解決方案：請聯絡ECS服務為您當前帳號提升部署集上限。

如何停止採集服務日誌？

如果您不想EMR收集您的資料，則可以關閉採集服務日誌。

重要

關閉日誌採集後，EMR的健全狀態檢查和支援人員將受到限制，但其他功能仍可正常使用。因此請謹慎選擇。

解決方案：

關閉採集服務日誌
- 建立叢集時：在建立叢集的軟體設定階段，單擊允許採集服務作業記錄。
- 建立叢集後：在目的地組群的基礎資訊頁面的軟體資訊地區，單擊服務作業記錄收集狀態。
驗證關閉情況。
查看/usr/local/ilogtail/user_log_config.json中是否存在namenode-log資訊，不存在則說明服務日誌採集已關閉。
說明
關閉服務日誌採集後，大約需要2-3分鐘來同步該配置，請耐心等待。

服務作業記錄收集哪些資訊？

服務作業記錄收集僅包括叢集服務元件啟動並執行日誌。您可以選擇一鍵開啟或關閉所有服務日誌的採集。需要注意的是，關閉日誌採集後，叢集的健康檢測功能以及售後的支援人員都將受限。

重要

建立叢集時預設開啟服務作業記錄收集，您可以根據需要選擇是否關閉該功能。具體操作，請參見如何停止採集服務日誌？。

哪些叢集類型支援EMR Doctor功能？

僅DataLake和Hadoop叢集類型支援健全狀態檢查功能。叢集建立後，您可以在EMR控制台目的地組群的監控診斷 > 健全狀態檢查頁簽使用該功能。

如果您的Hadoop叢集沒有此功能，則需要開通EMR Doctor，詳情請參見開通EMR Doctor（Hadoop叢集類型）。

EMR Doctor在安裝和升級過程中，是否會對叢集組件和叢集任務產生影響？

EMR Doctor在安裝和升級過程中不會重啟任何服務，本身過程也不會對您現有任務產生任何影響，並且在安裝結束後，EMR Doctor會將必要參數配置到現有叢集中，不需要您再手動進行配置。

EMR Doctor在安裝和升級過程中會對YARN、Spark、Tez和Hive服務進行配置整體下發，如果您現有的部分配置只進行了修改儲存，並沒有下發，則需要您確保下發過程不會對服務造成影響。

EMR Doctor都會採集哪些資料？

EMR Doctor不會採集您的實際資料，也不會掃描您的實際檔案和檔案內容。

EMR Doctor僅採集必要的事件數目據，例如任務啟動時間、終止時間、Metrics資料和Counters資料等。

EMR Doctor收費嗎？

當前是不收取任何費用的。

採集操作會對任務的運行會產生什麼影響？

EMR Doctor儲存中繼資料採集會根據使用者資源動態調整採集的資源，不會佔用過多使用者資源。

EMR Doctor的任務採集使用Java探針技術，不會單獨啟動Java進程監控。採集使用非同步方式，不會阻塞任務主進程，當採集造成的壓力過大時，會自動丟棄採集資料，並且您可以根據參數調整採集頻率等。

TPC-DS部分測試的資料如下表所示。

SQL及使用引擎	使用EMR Doctor採集時間（10次平均）	不使用EMR Doctor採集時間（10次平均）
query7（Spark）	21.0s	21.2s
query71（Tez）	50.8s	49.8s
query19（MapReduce）	68.6s	68.2s

說明

本文的TPC-DS的實現基於TPC-DS的基準測試，並不能與發行的TPC-DS基準測試結果相比較，本文中的測試並不符合TPC-DS的基準測試的所有要求。

什麼時候可以看到採集報告？

EMR Doctor自安裝和升級之後，日報功能會根據使用者啟動並執行任務以及是否採集儲存中繼資料來進行分析，所以叢集需要存在負載任務。

對於計算任務：當叢集的計算任務被收集後，第二天即可看到最新的報告，報告內容是根據前一天的叢集任務運行狀態對叢集整體進行分析後給出的叢集評估建議。
對於儲存分析：EMR Doctor預設不啟用儲存採集分析，您可以手動開啟儲存採集。開啟採集後，通常是上午10點左右進行採集，等待所有採集結束後第二天淩晨才會進行分析並產生報告。如果是當天下午才開啟採集，則需要到第三天才能看到結果。

可以給出配置的具體參數值嗎？

EMR Doctor給出的建議，採用的是指向性方式。例如，建議減少記憶體配置和修改GC參數等，並沒有給出具體的參數值。因為EMR Doctor採用打點抽樣進行採集，盡量避免對您的程式造成影響，即使推薦配置也需要您進行調整，並驗證其可行性。

擴容時報錯“ECS庫存不足”，該如何處理？

問題現象：擴容叢集時失敗，失敗原因顯示“ECS庫存不足_OutofStock”或“ECS庫存不足_OperationDenied.NoStock”。
問題原因：該錯誤表示您需要擴容的節點群組的ECS機型庫存不足，無法滿足您的擴容需求。
解決方案：您可以等待需要擴容的ECS機型庫存充足後再擴容，或者通過新增節點群組的方式選擇其他ECS機型對叢集進行擴容，詳情請參見新增節點群組。

建立叢集時報錯“ECS庫存不足”，該如何處理？

問題現象：建立叢集或新增節點群組時失敗，失敗原因顯示“ECS庫存不足_OutofStock”或“ECS庫存不足_OperationDenied.NoStock”。
問題原因：該錯誤表示您建立叢集或新增節點群組時選擇的ECS機型庫存不足，無法滿足需求。
解決方案：在建立叢集時選擇其他庫存充足且滿足您業務需求的ECS機型。

如何刪除不需要的服務？

目前不支援刪除叢集已有的服務。一旦服務被啟動，您將無法通過控制台或API刪除已有的服務。

如何登入叢集的節點？

E-MapReduce叢集建立後，Master節點可以使用建立叢集時設定的密碼登入，其餘節點的登入方式，請查看登入叢集其他節點。

如何查看執行個體所屬交換器？

在阿里雲EMR on ECS中，交換器資訊與節點群組緊密相關，不可在基礎資訊頁面直接查看。您可以在節點管理頁面，單擊執行個體所屬的節點群組名稱，查看該執行個體關聯的交換器資訊。

大規模叢集網路丟包如何解決？

問題現象：叢集中頻繁出現網路丟包現象，系統日誌中可能會顯示錯誤資訊，例如neighbour: arp_cache: neighbor table overflow!。這表明ARP（Address Resolution Protocol）緩衝表達到其容量上限，無法有效管理IP與MAC地址映射，從而導致網路效能問題。
問題原因：在大規模分布式系統中，尤其是當單個叢集規模超過1000台伺服器，並且使用的是EMR-5.18.0之前或EMR-3.52.0之前（不包括這兩個版本）時，可能會遭遇網路不穩定及資料丟包的問題。為此，可以通過調整系統參數來最佳化ARP Cache的管理。
ARP Cache儲存IP地址與MAC地址的映射關係，其參數配置如下：
- net.ipv4.neigh.default.gc_thresh1：當ARP表小於該值時，不進行記憶體回收。預設值為128。
- net.ipv4.neigh.default.gc_thresh2：當ARP表超出該值時，5秒內進行記憶體回收。預設值為512。
- net.ipv4.neigh.default.gc_thresh3：ARP表的最大容量。預設值為1024。
說明
由於預設配置較小，導致叢集規模超過1000台後，出現網路丟包和不穩定現象，因此需要調整相關配置。
解決方案：
1. 編輯/etc/sysctl.conf檔案，增加以下內容以擴大ARP緩衝的容量限制及最佳化串連跟蹤最大值。
```
    net.ipv4.neigh.default.gc_thresh1 = 512
    net.ipv4.neigh.default.gc_thresh2 = 2048
    net.ipv4.neigh.default.gc_thresh3 = 10240
    net.nf_conntrack_max = 524288
```
2. 執行命令sudo sysctl -p，以使新的設定生效。
  說明
  如果在執行sysctl -p命令時遇到錯誤資訊sysctl: cannot stat /proc/sys/net/nf_conntrack_max: No such file or directory，請首先運行命令sudo modprobe nf_conntrack以載入相應模組，然後再嘗試使用sysctl -p更新配置。

收到ECS系統事件SystemMaintenance.Redeploy後，應該如何處理？

如果您收到因系統維護執行個體重新部署（SystemMaintenance.Redeploy）類型的本地碟執行個體系統事件，表明阿里雲檢測到叢集節點的ECS執行個體的底層宿主機存在潛在的軟硬體故障風險，該風險會導致ECS執行個體重新部署，但請勿直接在ECS控制台單擊重新部署，以避免資料丟失。

解決方案：

根據事件詳情確認節點來源。
在故障節點所屬節點群組中擴容一個新的節點，詳情請參見擴容叢集。
縮容故障節點。
- 針對Core節點群組和訂用帳戶類型的Task節點群組進行縮容，詳情請參見手工縮容Core節點群組。
  說明
  ECS將在退訂訂用帳戶ECS執行個體的過程中計算並展示相應的退款金額。如有疑問，請提交工單申請，並在產品分類中選擇Elastic Compute Service進行諮詢。
- 針對隨用隨付類型的Task節點群組進行縮容，詳情請參見縮容叢集。

EMR叢集下的ECS執行個體相關雲端硬碟如何預設添加EMR叢集ID標籤？

若您希望為EMR叢集下的ECS執行個體相關雲端硬碟預設添加EMR叢集ID標籤，您可以在資源管理中啟用ECS執行個體的關聯資源標籤設定。此時，當雲端硬碟與ECS執行個體綁定時，將自動繼承ECS執行個體的標籤，並隨ECS執行個體標籤的變更而更新。

操作步驟：

登入標籤控制台。
在左側導覽列，選擇標籤 > 關聯資源標籤設定。
閱讀啟用說明，選中建立服務關聯角色。
啟用關聯資源標籤設定功能時，系統會自動建立一個名為AliyunServiceRoleForTag的服務關聯角色，用於執行關聯資源標籤相關操作。更多資訊，請參見標籤服務關聯角色。
單擊啟用並設定規則。
設定關聯資源標籤規則。
針對支援關聯資源標籤設定功能的資源，指定需要繼承的標籤鍵，可以選擇全部標籤鍵或部分標籤鍵。
單擊確定。

有關標籤的更多設定，請參見關聯標籤繼承。

報錯：IdempotentParameterMismatch

問題現象：在進行釋放叢集、升級配置等操作時，您可能會遇到以下錯誤資訊。

問題原因：該錯誤資訊表明多次請求使用了相同的client token。

The request uses the same client token as a previous, but non-identical request. Do not reuse a client token with different requests, unless the requests are identical.

解決方案：請確認您的操作是否已經在進行中。如果是，則無需重複提交。否則，您可以嘗試重新整理控制台頁面，EMR控制台介面會自動產生新的 client token。

報錯：QuotaExceeded.PrivateIpAddress

問題現象：在建立叢集或者執行擴容操作時，您可能遇到以下錯誤資訊。

[QuotaExceeded.PrivateIpAddress] The specified VSwitch "vsw-xxxx" does not have enough IP addresses.

問題原因：該錯誤表明所選的交換器（VSwitch）可用的IP地址數量不足，無法滿足叢集建立或擴容需求。
解決方案：通過建立新的節點群組並選擇具備足夠IP地址的交換器，您可以順利完成叢集建立或擴容操作。

報錯：LostProxy

問題現象：在建立叢集、擴容或服務配置更新時，出現錯誤提示：“taihao-proxy disconnect”。
問題原因：該錯誤資訊表示叢集節點上的EMR管控代理（Proxy）已失去串連。
解決方案：
1. 檢查叢集狀態並修複節點問題。
  - 如果批量節點失聯：檢查CPU和記憶體指標。
    - 如果CPU或記憶體使用量率較高，說明叢集負載過大。可以通過升配或擴容來緩解壓力。
    - 如果CPU或記憶體使用量率較低，檢查網路安全性群組配置，確保網路通訊正常。
  - 如果只有個別節點失聯：請檢查該節點的負載情況，確認是否CPU或記憶體使用量率達到100%。若負載過高，排查是否存在異常進程佔用資源。如果發現異常進程，終止相關進程並觀察節點狀態是否恢複。如果無異常進程，考慮以下解決方案：
    - Master節點：排查消耗CPU高的進程，可以通過升配來提升Master節點的規格，或者通過增加MASTER-EXTEND節點來分擔壓力。
    - 非Master節點：如果單個ECS執行個體負載過高或處於無響應狀態，可以下線問題節點或者擴容新節點。
      通過登入該節點執行以下命令重啟服務。
```
service taihao-proxy restart
```
2. 完成以上檢查和操作後，重新進行建立叢集、擴容或服務配置更新。

建立、擴容、升配叢集時報錯“賬戶餘額不足”，該如何處理？

問題現象：在建立叢集、擴容叢集或升配時，遇到以下錯誤資訊。

nvalidAccountStatus.NotEnoughBalance Message: Your account does not have enough balance to order postpaid product.

問題原因：您的帳號當前餘額不足。
解決方案：檢查賬戶餘額，保證帳號餘額大於所需資源的費用。在確保餘額充足後，再次進行相關操作。

擴容叢集、擴容磁碟時報錯：QuotaExceed.DiskCapacity

問題現象：在進行擴容叢集、擴容磁碟時，您可能遇到以下錯誤資訊。

[QuotaExceed.DiskCapacity] The used capacity of disk type has exceeded the quota in the zone,  quota check fail.

問題原因：該錯誤表明執行個體磁碟配額已達上限。
解決方案：由於指定磁碟類型的已用容量超出可用性區域配額限制，您可以前往配額中心查詢並申請提升磁碟容量配額。

建立叢集、擴容時報錯：QuotaExceed.DiskCapacity

問題現象：在進行建立叢集、擴容時，您可能遇到以下錯誤資訊。

QuotaExceed.ElasticQuota Message: The number of the specified ECS instances has exceeded the quota of the specified instance type.

問題原因：ECS執行個體配額已達上限。
解決方案：您可以選擇其他執行個體規格或減少執行個體數量後重新購買，也可以前往ECS管理主控台或配額中心申請提高限額。

引導指令碼執行失敗，該如何處理？

通過操作歷史詳情查看執行出錯的引導指令碼的執行日誌：

如果日誌中有明確報錯資訊，請根據報錯內容修改引導指令碼，並重新執行操作。
如果日誌中包含關鍵詞 exitCode 但無明確報錯，請在引導指令碼中添加更多的執行日誌，以便更好地調試，然後重新執行操作。
如果顯示任務逾時或日誌中沒有任何輸出，請排查以下內容：
- 確保使用者具有引導指令碼所在OSS Bucket的讀許可權。
- 檢查ECS的網路設定，確保能夠訪問OSS內網網域名稱，然後重新執行操作。