全部产品
Search
文档中心

人工智能平台 PAI:创建带有ACK灵骏托管版的集群

更新时间:Jun 03, 2024

阿里云容器服务ACK灵骏托管版集群是容器服务Kubernetes版(ACK)针对智能计算灵骏提供的集群类型,提供全托管和高可用控制面板的标准Kubernetes集群服务,支持以灵骏计算节点作为Kubernetes集群的工作节点。本文为您介绍如何创建带有ACK灵骏托管版的集群。

前提条件

  • 已根据业务需求购买所需灵骏产品(计算节点灵骏连接),具体操作,请参见购买产品

  • 已根据业务需求,购买并配置好所需的其他云产品,例如CEN、ARMS、VPC,ACK灵骏托管版等。更多信息,请参见购买并配置其他云产品

  • 用户需通过实名认证,并有100元的现金余额或信控余额,才能创建ACK集群。

背景信息

ACK灵骏托管版集群提供了全托管和高可用控制面板的标准Kubernetes集群服务,支持高效管理异构资源、调度异构任务,作为支撑PAI的云原生底座,并提供AI、HPC等高性能计算场景下的云原生增强能力。ACK灵骏托管版集群的更多信息,请参见什么是

创建集群配置

  1. 登录灵骏控制台

  2. 在左侧导航栏,选择资源与节点 > 集群管理,进入集群管理页面。

  3. 单击一键创建集群,进入创建集群配置页面。

  4. 单击PAI灵骏集群(包括PAI、ACK、CPFS等)卡片。

    根据界面配置指引,分别完成集群和分组配置网络配置软件实例基本参数配置软件实例和分组映射关系配置

说明

ACK灵骏托管版集群需单独计费,计费说明请参见ACK灵骏集群计费说明

集群和分组配置

您可以根据业务需求规划多个集群,集群内的计算节点可进一步细化节点分组,通过对集群、计算节点的规划来提高计算节点的资源利用率。规划完成后,集群的创建步骤如下。

image
  1. 配置集群信息

    配置集群名称、集群节点的root密码、资源组等信息。资源组的相关信息,请参见创建资源组

  2. 单击创建分组,配置节点分组信息。

    1. 根据规划和界面提示,配置分组名称和归属当前分组的节点信息,例如节点机型、镜像等信息。

    2. 单击请选择节点实例,选择将哪些节点添加到当前分组中。

  3. 单击保存,进入下一步网络配置继续后续配置。

网络配置

集群初始时处于一个隔离的网络环境中,您需要通过灵骏连接云企业网来实现与公共云的网络连通,同时指定用于监控网络连通状态的VPC网络环境。

image

如上述网络拓扑图所示,网络配置中涉及的核心网络有以下几类:

  • 集群网段:为集群内部使用的网段,用于给计算节点分配IP,为私有网段。

  • 监控网络:为用于监控网络连通状态的VPC网络。

您进行网络规划和配置时,以上各网段不能冲突。完成网络规划后,您可参考下面的步骤进行集群的网络配置。

说明

完成集群的网络配置后,您还需关注CEN的其他网络配置是否正确,CEN的配置要点可参见购买并配置CEN

  1. 配置集群网段

    • 集群网段为灵骏集群内部使用的网段,用于给计算节点分配IP,请填写有效的私有网段。

    • 集群子网是灵骏集群网段的子网段。灵骏网段和灵骏子网的更多信息,请参见管理灵骏网段

    说明
    • 您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。

    • 集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。

  2. (可选)配置集群子网bond分配策略。如果选择了特定计算节点,需要配置灵骏节点物理网卡bond接口的分配策略,bond接口与灵骏节点实例绑定。您可以按照bond策略机型策略节点策略配置bond接口。

    添加bond策略

    不同节点机型有不同的bond接口数量,集群的bond接口数量等于集群所有节点机型中最多的bond数量。集群的bond接口以bondx的格式命名,其中x从0开始编号。

    例如,一个集群的A、B两种节点对应的bond接口数量分别为3和4,那么集群的bond接口数量为4,分别从bond0bond3命名。而且A节点使用bond0bond2的接口策略。

    说明

    一个集群最多只能配置一个bond分配策略。

    操作步骤

    1. 配置集群的bond策略。

    2. (可选)配置默认bond。未分配策略的bond接口按照默认bond进行分配。选中应用于全部复选框,可以将默认bond分配给所有bond接口。

    添加机型策略

    您可以为集群中的每种机型设定一个机型分配策略,一个集群中的机型分配策略数量最多为集群的分组数量。

    操作步骤

    1. 在下拉列表选中相应节点机型。

    2. 配置bond策略,相应节点策略会应用到选中机型的所有节点实例。

    添加节点策略

    您可以为集群中的每个节点实例设定一个节点分配策略。同一节点实例的不同bond口可以接入不同的灵骏网段或灵骏子网。

    操作步骤

    1. 在下拉列表选中相应节点实例。

    2. 配置bond策略,相应节点策略会应用到选中的节点实例。

  3. 配置灵骏连接

    1. 单击授权,为灵骏连接授权。

      后续通过灵骏连接来对接CEN并访问其他云产品,因此您需要授权灵骏有访问其他云产品的权限。更多信息,请参见附录:灵骏连接服务关联角色说明

    2. 在下拉列表中选择灵骏连接实例ID,指定当前集群使用哪个灵骏连接实例连接云上环境。

    3. 在下拉列表中选择云企业网实例,指定当前集群后续通过灵骏连接对接哪个CEN实例。

      重要

      您需要在CEN中创建转发路由器,转发路由器的地域应该和灵骏节点的地域一致。具体操作,请参见转发路由器实例

  4. 配置监控网络信息

    1. 配置云企业网。创建新的VPC或将已有的VPC连接至第2步中的云企业网实例中的转发路由器实例,请参见开通并配置CEN。请确保VPC下的交换机至少有1个空闲IP,灵骏将使用该交换机对灵骏连接的连通性进行监控。

      重要
      • 只有将VPC连接至已选择的转发路由器,才能在下拉列表中选择相应的VPC。

      • 集群网段、监控网络的专有网络VPC互相之间不能冲突,且监控网络的专有网络VPC不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。

    2. 单击专有网络(VPC)下拉列表和交换机(vSwitch)下拉列表后的image,选择相应的专有网络和交换机。

  5. 单击保存,进入下一步 软件实例基本参数,继续后续配置。

软件实例基本参数配置

  1. 完成基本参数配置。

    ACK页签

    配置ACK灵骏托管版容器集群的相关参数。容器集群参数的说明,请参见创建Kubernetes托管版集群

    重要

    关于容器集群参数,需要注意Service CIDR、灵骏的集群网段、互联网段和专有网络网段,互相之间不能重叠。

    CPFS页签

    配置CPFS的相关参数。

    说明

    CPFS创建完成后,您可以通过CPFS控制台查看实例信息。

    PAI页签

    配置PAI的相关参数。

    说明

    关于RDS信息、云存储、ACR镜像仓库、OAuth认证信息的配置,请参见开通并配置其他云产品

  2. 单击保存,进入下一步软件实例和分组映射关系,继续后续配置。

软件实例和分组映射关系配置

ACK灵骏托管版集群为灵骏计算节点提供灵骏节点池类型,您可以更方便地对灵骏节点进行分组管理,例如节点配置、批量管理、指定调度、GPU配置等。节点池的更多信息,请参见灵骏节点池概述

  1. 单击创建节点池,创建ACK节点池。

  2. 配置节点池名称最大节点数量等。

  3. 单击选择关联分组,在弹出的对话框中,选中您想要关联的集群分组前的复选框,单击确定

  4. 单击保存,进入下一步,确认配置,继续后续配置。

确认配置

  1. 确认配置页面确认集群基本信息、网络配置、软件实例和分组映射关系和软件实例参数,无误后单击提交配置,开始创建集群。

  2. 单击依赖检查区域的完成授权,完成对容器服务的授权。