自動調整可以根據您配置的伸縮策略動態分配計算節點,實現根據即時負載自動增加或減少計算節點,以提高叢集可用性,降低使用成本。本文介紹如何配置自動調整。
功能優勢
根據即時負載,自動增加計算節點,提高叢集的可用性。
在保證叢集可用性的前提下,自動減少計算節點,降低叢集成本。
停止異常狀態的節點,並建立相應的新節點,提高叢集容錯能力。
使用限制
僅支援所有節點的作業系統為Linux的叢集配置自動調整。
僅支援調度器為PBS、Slurm、Deadline或SGE(即Open Grid Scheduler)的叢集配置自動調整。
不支援基於記憶體維度自動調整。
重要建議在提交作業時指定作業所需的vCPU來實現自動調整,另外作業指定的記憶體使用量大小不能超出ECS資源的記憶體規格。
注意事項
自動調整服務依賴於調度器服務和域帳號服務運行正常。開啟自動調整後,管控節點需要一直保持運行中。
如果管控節點需要關機或者重啟,請在計算節點沒有作業運行,並且自動調整已經釋放了空閑節點後再進行操作。此時,建議您先關閉自動調整,在管控節點重新啟動後,再開啟自動調整。
操作步驟
開啟自動調整頁面。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,選擇
。
在自動調整頁面,從叢集列表中選擇需要配置自動調整的叢集。
在全域配置地區完成參數配置。
配置項
描述
開關設定
為叢集內所有隊列開啟自動擴容和自動縮容。
說明當隊列配置和全域配置中配置不一致時,以隊列設定為優先。
叢集計算節點數
顯示叢集擴縮容後允許的計算節點數量範圍。上限值為叢集中各隊列配置的最大節點數總和,下限值為各隊列配置的最小節點數總和。
縮容時間(分鐘)
一個計算節點的連續空閑時間超過縮容時間時,該節點會被釋放。
連續空閑時間=縮容時間間隔*連續空閑次數。其中,縮容時間間隔預設為2分鐘,節點連續空閑次數指資源收縮檢查時,一個節點連續處於閒置次數。
鏡像類型
擴容的節點的鏡像類型,僅支援和叢集已有計算節點鏡像匹配的鏡像。
例外節點列表
不參與自動調整的節點。
如果您希望一直保留某個節點,可以將其設定為例外節點。例外節點在空閑時不會被釋放。
執行個體是否開啟HT
預設情況下,ECS執行個體均已開啟超執行緒HT(Hyper-Threading)。對於部分執行個體規格的ECS執行個體,支援關閉HT來獲得更好的效能。更多資訊,請參見規格限制和關閉CPU超執行緒以提升叢集效能。
在隊列配置地區,選擇隊列,然後單擊編輯完成參數配置。
配置
描述
啟動擴容、啟動縮容
是否開啟自動擴容和自動縮容,預設關閉。
說明當隊列配置和全域配置中配置不一致時,以隊列設定為優先。
隊列節點數
隊列允許的計算節點數量範圍。
最大節點數:該值會影響擴容效果,取值範圍為0~5000。
最小節點數:該值會影響縮容效果,取值範圍為0~1000。
重要如果將最小節點數修改為非0值,叢集縮容時該隊列會保留最小節點數量的節點,即使是空閑節點也不會被釋放。請您謹慎設定最小節點數,以免導致自動縮容後隊列中存在空閑節點,造成資源浪費和不必要的經濟損失。
主機名稱首碼
節點主機名稱的開頭字元,用以標記區分不同隊列節點。
單輪擴容的最大節點數量
每輪自動調整擴容周期最多擴容的節點數量。預設為0,表示不限制最大擴容數量。
如果您對使用成本有要求,可以設定單輪擴容的最大節點數量,確保擴容的節點數量不超出預期。
假設單輪擴容最大節點數量設定為A台,實際排隊作業所需節點數量為B台,則擴容情況如下:
B≤A時,擴容B台。
B>A時,僅擴容A台。
說明除單輪擴容的最大節點數量外,節點數量還受限於隊列和叢集的最大節點數量。
單輪擴容的最小節點數量
每輪自動調整擴容周期最少擴容的節點數量。預設為1,表示最少擴容1台。
某些情境可能需要至少擴容一定數量的節點才能保證業務運行。此時,您可以設定單輪擴容的最小節點數量,以確保在資源受限、無法擴容到指定的最小數量的節點時,不進行擴容,避免資源浪費。
假設單輪擴容最小節點數量設定為A台,實際排隊作業所需節點數量為B台,則擴容情況如下:
B≤A時,擴容B台。如果資源受限無法擴容B台,則不擴容。
B>A時,擴容B台。如果資源受限無法擴容B台,則盡量保證擴容A台及以上數量;如果無法擴容A台,則不擴容。
自動化佈建單輪擴容最小節點數量
如果開啟該開關。每次擴容的最小節點數等於作業所需的節點數量,上限是99台。
主機名稱尾碼
節點主機名稱的結尾字元,用以標記區分不同隊列節點。
鏡像類型
單個隊列擴容的節點的鏡像類型。不同隊列可單獨配置不同鏡像類型。
鏡像ID
擴容節點所屬的鏡像ID,不同隊列可配置不同鏡像ID。
說明該配置項只針對當前隊列,若隊列中不指定鏡像類型和鏡像ID,則擴容節點的鏡像由全域配置中的鏡像類型配置決定;若全域配置中也沒有指定鏡像類型,則擴容節點的鏡像和叢集預設鏡像類型一致。
執行個體規格是否亂序排列
如果開啟該開關,自動調整會按照執行個體規格的庫存數量從多到少的順序選擇執行個體規格,保障資源交付。
配置清單
設定擴容執行個體的配置。配置清單包括以下資訊:
可用性區域:叢集所在地區的不同可用性區域。
交換器ID:可用性區域內與叢集VPC綁定的可選交換器ID。
執行個體類型:單個隊列中擴容計算節點的執行個體規格。
說明如果隊列中配置了多個執行個體規格,自動調整將按照執行個體規格的配置順序,並基於執行個體的庫存以及作業的任務數和GPU數,自動請求資源進行擴容。例如,當前排隊作業需要單節點具備16核,隊列分別配置8、16和32核時,自動調整將會自動選擇16核的執行個體規格進行擴容,但如果16核執行個體規格沒有庫存,自動調整將會選擇32核的執行個體規格進行擴容。
搶佔式策略:擴容執行個體配置的競價方式。
每小時最高價格:僅搶佔式策略設定為設定上限價格的搶佔執行個體時設定每小時最高價格的區間。
系統硬碟
修改擴容執行個體的系統硬碟配置。
資料盤
為擴容執行個體掛載資料盤。根據業務需要設定資料盤類型、大小、效能層級,以及是否隨執行個體釋放、是否加密。
在頁面右上方,閱讀並選中《E-HPC服務條款》,單擊確認。
(可選)查看叢集自動調整示意圖。
您可以通過叢集自動調整示意圖瞭解您配置的伸縮策略在自動調整的過程中,節點數隨時間推移的變化,以及在關鍵時間點執行個體擴容和縮容所耗費時間。
說明您也可以在叢集自動調整示意圖地區設定類比並發節點數,來手動類比自動調整過程中計算節點的變化。