建立叢集時,您需要配置叢集的硬體設定、軟體配置、基礎配置等資訊。本文介紹如何在E-HPC控制台使用嚮導建立叢集。
前提條件
背景資訊
叢集可為E-HPC計算提供計算資源、儲存資源等,用於後續提交作業、調度作業、儲存作業結果、查看作業結果。建立和使用E-HPC叢集前請瞭解以下內容:
步驟一:配置硬體資訊
建立叢集時,您必須配置叢集的硬體資訊。硬體決定了叢集的效能,包括叢集所處地區、叢集部署方式、不同類型節點數量、網路類型、共用儲存等。
您可以根據您的業務需求選擇合適的硬體參數。
登入彈性高效能運算控制台。
在頂部功能表列左上方處,選擇地區。
在左側導覽列,單擊叢集。
在叢集頁面右上方,單擊建立叢集。
在硬體設定頁面,填寫硬體設定資訊。
配置項
說明
可用性區域
在下拉式清單中選擇叢集的可用性區域。
說明為保證E-HPC節點間的網路通訊效率,所有開通的節點均位於同一地區同一可用性區域,請參見地區和可用性區域。
付費類型
叢集各節點的計費方式,其中不包括Elastic IP Address、NAS儲存的費用。
訂用帳戶:按周、月或年購買及續約,為預付費模式。
隨用隨付:按實際開通時間長度以小時為單位進行收費,為後付費模式。
搶佔式執行個體:僅計算節點是搶佔式執行個體,管控節點和登入節點是隨用隨付執行個體,為後付費模式。
更多資訊,請參見計費方式概述。
部署方式
叢集的部署方式,可選值:
標準:登入節點、管控節點和計算節點分離部署。
精簡:登入節點、管控節點混合部署在一台執行個體上,計算節點分離部署。
重要如果需要使用SGE(Open Grid Scheduler)調度器,則叢集必須採用精簡方式部署。
各類節點規格和數量
根據選擇的部署方式,配置各類節點的規格和數量。
請根據業務需求選擇合適的規格。例如:您要使用E-HPC叢集進行分子動力學計算,可以選擇GPU規格來加速核心計算。關於如何選擇節點的執行個體規格,請參見產品規格和ECS選型最佳實務。
說明如需建立基於倚天晶片平台的叢集,請選擇相應的執行個體規格,例如ecs.g8m.large。該功能目前正在邀測中,如需使用,請前往邀測頁面申請。
對於不同規模的叢集,推薦的管控節點規格如下:
如果計算節點數≤100,管控節點規格建議vCPU≥16核,記憶體≥64 GiB。
如果計算節點數≤500,管控節點規格建議vCPU≥32核,記憶體≥128 GiB。
如果計算節點數>500,管控節點規格建議vCPU≥64核,記憶體≥256 GiB。
登入節點通常會被配置為開發環境,需要為叢集所有使用者提供軟體開發調試所需的資源及測試環境,因此推薦登入節點選擇與計算節點配置一致或記憶體配比更大的執行個體。
系統硬碟
所有節點系統硬碟的雲端硬碟類型和容量,取值範圍:40~2000 GB。
說明500 GB以上需要申請才能使用,請提交工單。
展開進階配置,配置網路、儲存等參數。
配置項
說明
授權執行個體配置
功能啟用
為節點綁定RAM角色,使得節點可以使用相關角色許可權訪問阿里雲產品。
重要該功能預設關閉,如需使用,請提交工單。
工單處理完成後,請根據您操作的帳號類型進行如下操作:
阿里雲帳號(主帳號):單擊前往RAM進行授權,授權使用者使用系統已建立的預設角色。
RAM使用者(子帳號):使用阿里雲帳號(主帳號)登入RAM控制台,選擇如下任一方式對RAM使用者進行授權。
新增如下自訂權限原則,並將該自訂權限原則賦予RAM使用者。具體操作,請參見建立自訂權限原則和為RAM使用者授權。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "ram:PassRole", "ram:ListRoles" ], "Resource": "*" }, { "Effect": "Allow", "Action": "ecs:AttachInstanceRamRole", "Resource": "*" } ] }
直接為RAM使用者賦予AliyunRAMFullAccess許可權。
AliyunRAMFullAccess許可權為管理RAM的許可權,即系統管理使用者以及授權的許可權,該許可權的範圍大於手動新增的自訂權限原則。具體操作,請參見為RAM使用者授權。
角色名稱
節點要綁定的RAM角色。建議您選擇系統建立的預設角色AliyunECSInstanceForEHPCRole。
節點類型
要綁定RAM角色的節點。節點類型包括:
調度器節點
域帳號節點
登入節點
計算節點
說明如果選中了計算節點,後續擴容的計算節點會自動綁定此處配置的RAM角色。
資源群組配置
資源群組
叢集節點所在資源群組。您可以使用資源群組對您帳號下多種叢集節點進行集中的分組管理。
網路設定
Elastic IP Address
Elastic IP Address是可以獨立購買和持有的公網IP地址資源。如果您希望固定使用某個公網IP地址登入叢集,可以為叢集綁定Elastic IP Address。
使用:自動建立並綁定Elastic IP Address到叢集登入節點,您可以通過公網訪問叢集。
不使用:您只能通過專用網路訪問叢集。
說明使用Elastic IP Address會產生費用,具體費用說明請參見計費概述。
VPC、交換器
叢集所在的專用網路。不同的專用網路之間邏輯上徹底隔離。您可以在專用網路內建立和管理叢集。
預設選擇第一個已建立的VPC和交換器,請確保交換器下的IP地址空間足夠(可用IP數大於叢集所有節點的數量)。
建立安全性群組
通過配置安全性群組規則,您可以控制安全性群組內節點的入流量和出流量。
開啟:開啟後需要在安全性群組名稱文字框中輸入建立的安全性群組名稱。
關閉:關閉後需要在選擇安全性群組列表中選擇已有安全性群組。
共用儲存
按檔案夾配置
關閉:只為叢集配置一個檔案系統。
開啟:為所有節點的檔案夾掛載檔案系統,提高本叢集的共用儲存能力。
類型
叢集掛載的檔案系統的類型。
通用型NAS:掛載通用型NAS檔案系統。
極速型NAS:掛載極速型NAS檔案系統。
檔案系統ID、掛載點
預設選擇第一個已建立的檔案系統ID和掛載點,請確保該檔案系統還有可用的掛載點餘量。
您也可以分別單擊建立檔案系統和建立掛載點建立新的檔案系統和掛載點。
掛載選項
掛載通用型NAS時,可選擇掛載協議,支援使用NFS v3協議或NFS v4協議掛載。
遠程目錄
掛載檔案系統的遠程目錄。
步驟二:配置軟體資訊
軟體指安裝在節點上的鏡像、調度器、域帳號服務等。
硬體設定完成後,單擊下一步。
配置軟體資訊。
配置項
說明
鏡像類型、鏡像
請根據需要選擇鏡像類型。E-HPC支援的鏡像類型如下:
公用鏡像
自訂鏡像
共用鏡像
鏡像市場
社區鏡像
其中,自訂鏡像具有以下限制:
支援基於阿里雲官方鏡像建立的自訂鏡像,以及匯入的CentOS鏡像。匯入鏡像時,請務必選中匯入後執行檢測,否則無法在E-HPC控制台識別該鏡像。
無法使用基於已有E-HPC叢集節點建立產生的自訂鏡像。否則,建立叢集計算節點將會產生異常。
自訂鏡像中不能修改作業系統的yum源配置,否則會導致無法建立叢集或擴容。
自訂鏡像的掛載路徑(通過mount命令掛載NAS檔案系統的掛載路徑)不能有
/home
和/opt
目錄。
選擇鏡像類型後,可進一步選擇要使用的鏡像。不同鏡像對應不同的作業系統,系統會根據您選擇的鏡像來部署叢集節點。
重要系統會根據當前選擇的地區可用性區域、您帳號具有的鏡像資源、節點執行個體規格支援的鏡像等自動顯示可以選擇的鏡像,具體以介面顯示為準。
調度器
調度器是指E-HPC叢集上部署的作業調度軟體。
E-HPC支援多種調度器,但不同的鏡像支援的調度器類型有所不同,具體支援情況以控制台為準。
域帳號服務
選擇域帳號服務類型後,通過域帳號服務管理建立的叢集以及叢集使用者。目前支援nis和ldap。
VNC
開啟VNC開關後,建立叢集時系統會自動部署遠程可視化服務。您可以直接通過控制台訪問遠程圖形案頭。
配置隊列和安裝後要執行的指令碼。
配置項
說明
隊列配置
是否建立隊列
E-HPC支援將運行不同作業或執行不同任務的計算節點移動到不同隊列中,便於篩選節點。具體作業執行順序根據您設定的隊列以及調度器決定。
預設隊列:建立叢集時所選擇的計算節點將自動添加到調度器預設的隊列。PBS叢集的預設隊列為workq,slurm叢集的預設隊列為comp。
建立隊列:在隊列名輸入框中輸入建立的隊列名稱,建立叢集時會自動建立隊列,並將所選擇的計算節點加入該隊列。
安裝後執行指令碼
下載地址
叢集安裝後執行的自訂指令碼下載地址。
說明支援HTTP和HTTPS協議下載,推薦存放指令碼到OSS公開可讀Bucket。
執行參數
指令碼執行參數。更多資訊,請參見安裝後指令碼配置說明。
步驟三:配置基礎資訊
軟體資訊配置完成後,單擊下一步。
配置基本資料和登入設定。
配置項
說明
名稱
叢集名稱,該名稱將會在叢集列表中顯示,便於您尋找識別。
登入密碼、確認密碼
叢集的登入密碼。該密碼用於遠程SSH訪問叢集登入節點,對應的使用者名稱為root。
在右側配置清單查看建立的叢集配置,閱讀並選中《E-HPC服務條款》,單擊確認。
執行結果
建立完成後,在叢集頁面可以查看新建立的叢集狀態。若新建立的叢集和叢集所有節點都處於運行中狀態,則表示叢集建立完成。