全部產品
Search
文件中心

:管理靈駿叢集和靈駿節點

更新時間:Jul 13, 2024

靈駿叢集是帶有靈駿最佳化套件的高效能靈駿計算節點的集合,每個靈駿節點對應一台GPU計算服務器,可以用於部署異構計算服務。本文為您介紹如何管理靈駿叢集和靈駿節點,例如查看靈駿叢集資訊、查看節點詳情、擴容靈駿叢集等操作。

管理靈駿叢集

靈駿叢集的狀態分為:

  • 初始化失敗:查看失敗任務詳情,請參見營運工作中樞

  • 初始化中:進行中靈駿網路設定、靈駿計算節點初始化等操作。

  • 運行中:只有當叢集的狀態為運行中時,才能進行叢集擴容、叢集縮容、節點重裝或節點重啟任務。

    重要

    如果叢集擴容、叢集縮容、節點重裝或節點重啟任務對應的靈駿計算節點不同,可以並行提交這些任務。

查看叢集資訊

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 叢集管理

  3. 單擊叢集ID後的詳情,會跳轉到叢集詳情頁面。

    1. 查看叢集名稱、分組數、建立資訊等叢集基本資料。

    2. 基於節點分組監控警示基礎指標RDMAGPU五個維度查看叢集資訊。

擴容叢集

說明

叢集擴容時需要在新的GPU節點上部署CPFS Client,並將該節點添加至CPFS叢集中。

叢集擴容時需要對新擴容的節點進行打標。

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 叢集管理

  3. 單擊目的地組群ID後的擴容

    1. 以下為原有分組詳情地區,單擊對應節點分組名稱後的擴容

    2. 在彈出的對話方塊中,輸入節點名首碼、登入密碼和確認密碼。

    3. 選中未使用的節點執行個體前的複選框或購買新節點,單擊確定

  4. 以下為待擴容詳細配置地區,單擊確認提交

  5. 回到叢集管理頁面,擴容的叢集狀態顯示擴容中,等待擴容完成。

縮容叢集

警告
  • 縮容會導致被移出叢集的節點重裝,節點上的本機資料將全部清空。因此,請在縮容操作前確保已備份節點資料。

  • 叢集縮容時需要將縮容的節點從CPFS叢集中移除。

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 叢集管理

  3. 單擊叢集ID後的縮容

    1. 以下為原有分組詳情地區,選中需要移出的節點前的複選框,然後單擊批量移出叢集

    2. 以下是待縮容的詳細配置地區,單擊確認提交

  4. 確認縮容配置頁面,在下方的文字框中輸入DELETE,單擊確定對叢集進行縮容。

  5. 回到叢集管理頁面,擴容的叢集狀態顯示縮容中,等待縮容完成。

刪除叢集

重要
  • 刪除叢集前,需要先對相應叢集進行叢集縮容,移出叢集下所有節點。

  • 叢集刪除時不會刪除關聯的CPFS叢集。

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 叢集管理

  3. 單擊想要刪除的叢集ID/名稱,在叢集詳情頁面單擊右上方的刪除

  4. 在彈出的對話方塊中,單擊確定,完成叢集刪除。

建立叢集分組

您有兩種方式為靈駿叢集建立分組。

  • 建立叢集時,為叢集建立分組。更多資訊,請參見叢集和分組配置

  • 建立叢集完成後,為已有的叢集建立分組。

    1. 登入靈駿控制台

    2. 在左側導覽列,選擇資源與節點>叢集管理

    3. 單擊相應的叢集ID/名稱

    4. 單擊節點分組頁簽。

    5. 單擊建立分組。輸入節點群組的分組名稱、預設機型等資訊。

    6. (可選)建立完叢集分組後,您可以編輯相應叢集分組的名稱或刪除叢集分組。

管理靈駿節點

重要

一個靈駿計算節點最多隻能同時執行一項操作,包括叢集擴容、叢集縮容、節點重裝和節點重啟。

購買新節點

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 節點管理

  3. 節點管理頁面,單擊購買新節點,會跳轉到節點購買頁面。

  4. 按照介面提示,購買新節點。

查看節點詳情

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點> 節點管理,進入節點管理頁面。

  3. 單擊全部頁簽查看全部節點。

    • 您可以查看節點ID/名稱鏡像名可用性區域等節點基本資料。

    • 在下拉式清單中選擇鏡像名可用性區域IP地址等條件,然後在文字框中輸入搜尋內容,對節點進行搜尋。

  4. 單擊未使用頁簽查看未使用節點。您可以查看節點規格GPU等節點基本資料。

登入節點

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 節點管理

  3. 在目標節點ID後的操作列單擊遠程登入

重裝節點

重要
  • 重裝節點會導致節點的資料被刪除,請謹慎操作。

  • 只有當靈駿叢集的狀態為運行中時,才能重裝節點。

  • 節點重裝時需要先將舊節點從CPFS叢集中移除,再將新的節點資訊添加到CPFS叢集中。

在以下情況,您需要重裝節點:

  • 重新部署業務。

  • 更換作業系統版本。

  • 營運情境需要。

操作步驟:

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 節點管理

  3. 節點管理頁面,單擊執行個體ID後的重裝。在彈出的對話方塊中,選擇鏡像版本、修改節點名稱,然後輸入並確認節點root密碼,單擊重裝

重啟節點

重要
  • 重啟節點可能會影響商務持續性。

  • 只有當靈駿叢集的狀態為運行中時,才能重啟節點。

在以下情況,您需要重啟節點:

  • 部署新應用或服務。

  • 修改系統配置。

  • 營運情境需要。

操作步驟:

  1. 登入靈駿控制台

  2. 在左側導覽列,選擇資源與節點 > 節點管理

  3. 節點管理頁面,單擊執行個體ID後的重啟