靈駿叢集是帶有靈駿最佳化套件的高效能靈駿計算節點的集合,每個靈駿節點對應一台GPU計算服務器,可以用於部署異構計算服務。本文為您介紹如何管理靈駿叢集和靈駿節點,例如查看靈駿叢集資訊、查看節點詳情、擴容靈駿叢集等操作。
管理靈駿叢集
靈駿叢集的狀態分為:
初始化失敗:查看失敗任務詳情,請參見營運工作中樞。
初始化中:進行中靈駿網路設定、靈駿計算節點初始化等操作。
運行中:只有當叢集的狀態為運行中時,才能進行叢集擴容、叢集縮容、節點重裝或節點重啟任務。
重要如果叢集擴容、叢集縮容、節點重裝或節點重啟任務對應的靈駿計算節點不同,可以並行提交這些任務。
查看叢集資訊
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 叢集管理。
單擊叢集ID後的詳情,會跳轉到叢集詳情頁面。
查看叢集名稱、分組數、建立資訊等叢集基本資料。
基於節點分組、監控警示、基礎指標、RDMA、GPU五個維度查看叢集資訊。
擴容叢集
叢集擴容時需要在新的GPU節點上部署CPFS Client,並將該節點添加至CPFS叢集中。
叢集擴容時需要對新擴容的節點進行打標。
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 叢集管理。
單擊目的地組群ID後的擴容。
在以下為原有分組詳情地區,單擊對應節點分組名稱後的擴容。
在彈出的對話方塊中,輸入節點名首碼、登入密碼和確認密碼。
選中未使用的節點執行個體前的複選框或購買新節點,單擊確定。
在以下為待擴容詳細配置地區,單擊確認提交。
回到叢集管理頁面,擴容的叢集狀態顯示擴容中,等待擴容完成。
縮容叢集
縮容會導致被移出叢集的節點重裝,節點上的本機資料將全部清空。因此,請在縮容操作前確保已備份節點資料。
叢集縮容時需要將縮容的節點從CPFS叢集中移除。
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 叢集管理。
單擊叢集ID後的縮容。
在以下為原有分組詳情地區,選中需要移出的節點前的複選框,然後單擊批量移出叢集。
在以下是待縮容的詳細配置地區,單擊確認提交。
在確認縮容配置頁面,在下方的文字框中輸入
DELETE
,單擊確定對叢集進行縮容。回到叢集管理頁面,擴容的叢集狀態顯示縮容中,等待縮容完成。
刪除叢集
刪除叢集前,需要先對相應叢集進行叢集縮容,移出叢集下所有節點。
叢集刪除時不會刪除關聯的CPFS叢集。
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 叢集管理。
單擊想要刪除的叢集ID/名稱,在叢集詳情頁面單擊右上方的刪除。
在彈出的對話方塊中,單擊確定,完成叢集刪除。
建立叢集分組
您有兩種方式為靈駿叢集建立分組。
管理靈駿節點
一個靈駿計算節點最多隻能同時執行一項操作,包括叢集擴容、叢集縮容、節點重裝和節點重啟。
購買新節點
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊購買新節點,會跳轉到節點購買頁面。
按照介面提示,購買新節點。
查看節點詳情
登入靈駿控制台。
在左側導覽列,選擇資源與節點> 節點管理,進入節點管理頁面。
單擊全部頁簽查看全部節點。
您可以查看節點ID/名稱、鏡像名、可用性區域等節點基本資料。
在下拉式清單中選擇鏡像名、可用性區域、IP地址等條件,然後在文字框中輸入搜尋內容,對節點進行搜尋。
單擊未使用頁簽查看未使用節點。您可以查看節點規格、GPU等節點基本資料。
登入節點
重裝節點
重裝節點會導致節點的資料被刪除,請謹慎操作。
只有當靈駿叢集的狀態為運行中時,才能重裝節點。
節點重裝時需要先將舊節點從CPFS叢集中移除,再將新的節點資訊添加到CPFS叢集中。
在以下情況,您需要重裝節點:
重新部署業務。
更換作業系統版本。
營運情境需要。
操作步驟:
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊執行個體ID後的重裝。在彈出的對話方塊中,選擇鏡像版本、修改節點名稱,然後輸入並確認節點root密碼,單擊重裝。
重啟節點
重啟節點可能會影響商務持續性。
只有當靈駿叢集的狀態為運行中時,才能重啟節點。
在以下情況,您需要重啟節點:
部署新應用或服務。
修改系統配置。
營運情境需要。
操作步驟:
登入靈駿控制台。
在左側導覽列,選擇資源與節點 > 節點管理。
在節點管理頁面,單擊執行個體ID後的重啟。