全部产品
Search
文档中心

人工智能平台 PAI:管理灵骏集群和灵骏节点

更新时间:Dec 28, 2023

灵骏集群是带有灵骏优化套件的高性能灵骏计算节点的集合,每个灵骏节点对应一台GPU计算服务器,可以用于部署异构计算服务。本文为您介绍如何管理灵骏集群和灵骏节点,例如查看灵骏集群信息、查看节点详情、扩容灵骏集群等操作。

管理灵骏集群

image

灵骏集群的状态分为:

  • 初始化失败:查看失败任务详情,请参见运维任务中心

  • 初始化中:正在进行灵骏网络配置、灵骏计算节点初始化等操作。

  • 运行中:只有当集群的状态为运行中时,才能进行集群扩容、集群缩容、节点重装或节点重启任务。

    重要

    如果集群扩容、集群缩容、节点重装或节点重启任务对应的灵骏计算节点不同,可以并行提交这些任务。

查看集群信息

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 集群管理

  3. 单击集群ID后的详情,会跳转到集群详情页面。

    1. 查看集群名称、分组数、创建信息等集群基本信息。

    2. 基于节点分组监控报警基础指标RDMAGPU五个维度查看集群信息。

扩容集群

说明

集群扩容时需要在新的GPU节点上部署CPFS Client,并将该节点添加至CPFS集群中。

集群扩容时需要对新扩容的节点进行打标。

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 集群管理

  3. 单击目标集群ID后的扩容

    1. 以下为原有分组详情区域,单击对应节点分组名称后的扩容

    2. 在弹出的对话框中,输入节点名前缀、登录密码和确认密码。

    3. 选中未使用的节点实例前的复选框或购买新节点,单击确定

  4. 以下为待扩容详细配置区域,单击确认提交

  5. 回到集群管理页面,扩容的集群状态显示扩容中,等待扩容完成。

缩容集群

警告
  • 缩容会导致被移出集群的节点重装,节点上的本地数据将全部清空。因此,请在缩容操作前确保已备份节点数据。

  • 集群缩容时需要将缩容的节点从CPFS集群中移除。

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 集群管理

  3. 单击集群ID后的缩容

    1. 以下为原有分组详情区域,选中需要移出的节点前的复选框,然后单击批量移出集群

    2. 以下是待缩容的详细配置区域,单击确认提交

  4. 确认缩容配置页面,在下方的文本框中输入DELETE,单击确定对集群进行缩容。

  5. 回到集群管理页面,扩容的集群状态显示缩容中,等待缩容完成。

删除集群

重要
  • 删除集群前,需要先对相应集群进行集群缩容,移出集群下所有节点。

  • 集群删除时不会删除关联的CPFS集群。

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 集群管理

  3. 单击想要删除的集群ID/名称,在集群详情页面单击右上角的删除

  4. 在弹出的对话框中,单击确定,完成集群删除。

创建集群分组

您有两种方式为灵骏集群创建分组。

  • 创建集群时,为集群创建分组。更多信息,请参见集群和分组配置

  • 创建集群完成后,为已有的集群创建分组。

    1. 登录灵骏控制台

    2. 在左侧导航栏,选择资源与节点>集群管理

    3. 单击相应的集群ID/名称

    4. 单击节点分组页签。

    5. 单击新建分组。输入节点组的分组名称、默认机型等信息。

    6. (可选)创建完集群分组后,您可以编辑相应集群分组的名称或删除集群分组。

管理灵骏节点

重要

一个灵骏计算节点最多只能同时执行一项操作,包括集群扩容、集群缩容、节点重装和节点重启。

购买新节点

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 节点管理

  3. 节点管理页面,单击购买新节点,会跳转到节点购买页面。

  4. 按照界面提示,购买新节点。

查看节点详情

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点> 节点管理,进入节点管理页面。

  3. 单击全部页签查看全部节点。

    • 您可以查看节点ID/名称镜像名可用区等节点基本信息。

    • 在下拉列表中选择镜像名可用区IP地址等条件,然后在文本框中输入搜索内容,对节点进行搜索。

  4. 单击未使用页签查看未使用节点。您可以查看节点规格GPU等节点基本信息。

登录节点

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 节点管理

  3. 在目标节点ID后的操作列单击远程登录

重装节点

重要
  • 重装节点会导致节点的数据被删除,请谨慎操作。

  • 只有当灵骏集群的状态为运行中时,才能重装节点。

  • 节点重装时需要先将旧节点从CPFS集群中移除,再将新的节点信息添加到CPFS集群中。

在以下情况,您需要重装节点:

  • 重新部署业务。

  • 更换操作系统版本。

  • 运维场景需要。

操作步骤:

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 节点管理

  3. 节点管理页面,单击实例ID后的重装。在弹出的对话框中,选择镜像版本、修改节点名称,然后输入并确认节点root密码,单击重装

重启节点

重要
  • 重启节点可能会影响业务连续性。

  • 只有当灵骏集群的状态为运行中时,才能重启节点。

在以下情况,您需要重启节点:

  • 部署新应用或服务。

  • 修改系统配置。

  • 运维场景需要。

操作步骤:

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 节点管理

  3. 节点管理页面,单击实例ID后的重启