本文為您介紹如何修複EMR Kafka叢集Broker節點的ECS執行個體存在的磁碟事件。
背景資訊
當您收到提示本地磁碟硬體異常風險的郵件時,需要進行Kafka服務磁碟修複操作。
此時,您可以在ECS的控制台,查看修複磁碟事件流程。

事件處理概述
EMR Kafka Broker節點的ECS磁碟事件處理與響應和普通的ECS執行個體不完全相同,在ECS磁碟事件流程的不同階段,需要穿插Kafka Broker相應的營運操作。整個流程大致可以分為磁碟下線、等待ECS磁碟修複和磁碟上線3個階段。
故障磁碟下線
- 選擇合適的磁碟恢複策略並執行相關操作。當ECS磁碟事件處於修改配置階段時,您需要選擇合適的EMR Kafka磁碟恢複策略進行Kafka磁碟營運操作,詳細的營運策略請參見EMR Kafka磁碟故障營運。
按照Kafka磁碟恢複策略進行相關操作之後,單擊ECS磁碟事件流程中修改配置中的下一步至重啟階段。如果沒有重啟階段,則處理至新盤插入中階段。
進行此步驟時,需注意以下資訊:- 相關的修複策略通常會包含隔離壞盤操作,隔離壞盤之後,重啟Broker之前,您需要將壞盤目錄路徑移出Kafka的log.dirs配置中。
- 如果修複策略要求重啟Broker,且ECS磁碟事件流程中也要求重啟ECS執行個體,則可以將兩者合併作業。
- 可選:重啟ECS執行個體。如果ECS修複磁碟事件流程中,要求重啟ECS,則可以按照如下步驟重啟:
- 在EMR控制台停止故障Broker節點服務。
- 重啟故障ECS執行個體。在ECS修複磁碟事件流程中,單擊重啟。
- 在EMR控制台啟動故障Broker節點服務。觀察Broker節點狀態是否處於正常狀態。
當執行完ECS執行個體重啟後,修複磁碟事件處於新盤插入中階段。
- 等待ECS修複磁碟。在新盤插入中階段,單擊確定。確認後請等待阿里雲在所宿物理機上更換損壞的本地碟,維護操作通常在五個工作日內完成,之後您會收到恢複磁碟的事件通知。
磁碟上線
收到恢複磁碟的事件通知後,您可以進行磁碟上線操作。
- 確認磁碟目前狀態。
- 使用SSH方式登入Kafka叢集,詳情請參見登入叢集。
- 執行以下命令,確認磁碟已經插入,且磁碟大小為1 MB。
lsblk
- 在ECS控制台,單擊修複磁碟事件流程中的恢複磁碟,等待流程進入下一階段。
- 可選:重啟ECS執行個體。如果您的引導頁面出現重啟階段,則需要進行重啟。請按照如下步驟重啟:
- 在EMR控制台停止故障Broker節點服務。
- 重啟故障ECS執行個體。在修複磁碟事件流程中,單擊重啟。
- 在EMR控制台啟動故障Broker節點服務。觀察Broker節點狀態是否處於正常狀態。
- 在故障節點執行以下命令,查看磁碟大小是否恢複。
lsblk - 重啟完成後,在修複磁碟事件流程中,單擊完成。說明 ECS磁碟恢複流程完成後,您仍需要進行後續操作,完成Kafka Broker節點日誌目錄的恢複。
- 格式化磁碟和掛載磁碟。
- 執行以下命令,格式化磁碟。
which mkfs.ext4 mkfs.ext4 -m 0 /dev/***說明 請替換/dev/***為您實際的裝置名稱。 - 執行以下命令,配置/etc/fstab檔案。
echo "/dev/*** /mnt/*** ext4 defaults,noatime,nofail 0 0 " >> /etc/fstab說明 請替換/dev/***和/mnt/***為您實際的裝置名稱和掛載目錄。 - 執行以下命令,確認/etc/fstab檔案是否配置正確。
more /etc/fstab根據以下回顯資訊,可以確認/etc/fstab檔案已正確配置。

- 執行以下命令,掛載磁碟。
mount /dev/** /mnt/***請替換裝置名稱和掛載目錄。本文樣本是將/dev/vdh掛載至/mnt/disk7,所以命令為
mount /dev/vdh /mnt/disk7。 - 執行以下命令,確認磁碟是否已經掛載。
df -h根據以下回顯資訊,可以確認磁碟已經掛載。

- 執行以下命令,格式化磁碟。
- 按照您選擇的Kafka磁碟修複策略,恢複Kafka Broker節點日誌目錄,詳情請參見EMR Kafka磁碟故障營運。
- 可選:按照您選擇的Kafka磁碟修複策略,遷移Kafka分區副本至修複後的磁碟,使負載更加均衡,詳情請參見EMR Kafka磁碟故障營運。