灵骏集群是带有灵骏优化套件的高性能灵骏计算节点的集合,每个灵骏节点对应一台GPU计算服务器,可以用于部署异构计算服务。本文为您介绍如何管理灵骏集群和灵骏节点,例如查看灵骏集群信息、查看节点详情、扩容灵骏集群等操作。
管理灵骏集群
灵骏集群的状态分为:
初始化失败:查看失败任务详情,请参见运维任务中心。
初始化中:正在进行灵骏网络配置、灵骏计算节点初始化等操作。
运行中:只有当集群的状态为运行中时,才能进行集群扩容、集群缩容、节点重装或节点重启任务。
重要如果集群扩容、集群缩容、节点重装或节点重启任务对应的灵骏计算节点不同,可以并行提交这些任务。
查看集群信息
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 集群管理。
单击集群ID后的详情,会跳转到集群详情页面。
查看集群名称、分组数、创建信息等集群基本信息。
基于节点分组、监控报警、基础指标、RDMA、GPU五个维度查看集群信息。
扩容集群
集群扩容时需要在新的GPU节点上部署CPFS Client,并将该节点添加至CPFS集群中。
集群扩容时需要对新扩容的节点进行打标。
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 集群管理。
单击目标集群ID后的扩容。
在以下为原有分组详情区域,单击对应节点分组名称后的扩容。
在弹出的对话框中,输入节点名前缀、登录密码和确认密码。
选中未使用的节点实例前的复选框或购买新节点,单击确定。
在以下为待扩容详细配置区域,单击确认提交。
回到集群管理页面,扩容的集群状态显示扩容中,等待扩容完成。
缩容集群
缩容会导致被移出集群的节点重装,节点上的本地数据将全部清空。因此,请在缩容操作前确保已备份节点数据。
集群缩容时需要将缩容的节点从CPFS集群中移除。
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 集群管理。
单击集群ID后的缩容。
在以下为原有分组详情区域,选中需要移出的节点前的复选框,然后单击批量移出集群。
在以下是待缩容的详细配置区域,单击确认提交。
在确认缩容配置页面,在下方的文本框中输入
DELETE
,单击确定对集群进行缩容。回到集群管理页面,扩容的集群状态显示缩容中,等待缩容完成。
删除集群
删除集群前,需要先对相应集群进行集群缩容,移出集群下所有节点。
集群删除时不会删除关联的CPFS集群。
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 集群管理。
单击想要删除的集群ID/名称,在集群详情页面单击右上角的删除。
在弹出的对话框中,单击确定,完成集群删除。
创建集群分组
您有两种方式为灵骏集群创建分组。
管理灵骏节点
一个灵骏计算节点最多只能同时执行一项操作,包括集群扩容、集群缩容、节点重装和节点重启。
购买新节点
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 节点管理。
在节点管理页面,单击购买新节点,会跳转到节点购买页面。
按照界面提示,购买新节点。
查看节点详情
登录灵骏控制台。
在左侧导航栏,选择资源与节点> 节点管理,进入节点管理页面。
单击全部页签查看全部节点。
您可以查看节点ID/名称、镜像名、可用区等节点基本信息。
在下拉列表中选择镜像名、可用区、IP地址等条件,然后在文本框中输入搜索内容,对节点进行搜索。
单击未使用页签查看未使用节点。您可以查看节点规格、GPU等节点基本信息。
登录节点
重装节点
重装节点会导致节点的数据被删除,请谨慎操作。
只有当灵骏集群的状态为运行中时,才能重装节点。
节点重装时需要先将旧节点从CPFS集群中移除,再将新的节点信息添加到CPFS集群中。
在以下情况,您需要重装节点:
重新部署业务。
更换操作系统版本。
运维场景需要。
操作步骤:
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 节点管理。
在节点管理页面,单击实例ID后的重装。在弹出的对话框中,选择镜像版本、修改节点名称,然后输入并确认节点root密码,单击重装。
重启节点
重启节点可能会影响业务连续性。
只有当灵骏集群的状态为运行中时,才能重启节点。
在以下情况,您需要重启节点:
部署新应用或服务。
修改系统配置。
运维场景需要。
操作步骤:
登录灵骏控制台。
在左侧导航栏,选择资源与节点 > 节点管理。
在节点管理页面,单击实例ID后的重启。