部署集是控制ECS实例分布的策略,该策略将ECS实例分散部署在不同的物理服务器上,提升业务的高可用性和底层容灾能力。通过为节点池指定部署集,能够保证节点池弹出的ECS实例不会分布于同一物理机上,并通过亲和性配置,使您的应用对底层的节点拓扑进行感知,使其均匀地分布在不同节点上,保证应用的容灾能力和高可用性。本文介绍如何通过Terraform为节点池指定部署集。
本教程所含示例代码支持一键运行,您可以直接运行代码。一键运行
前提条件
准备Terraform运行环境,您可以选择以下任一方式来使用Terraform。
在Terraform Explorer中使用Terraform:阿里云提供了Terraform的在线运行环境,您无需安装Terraform,登录后即可在线使用和体验Terraform。适用于零成本、快速、便捷地体验和调试Terraform的场景。
Cloud Shell:阿里云Cloud Shell中预装了Terraform的组件,并已配置好身份凭证,您可直接在Cloud Shell中运行Terraform的命令。适用于低成本、快速、便捷地访问和使用Terraform的场景。
在本地安装和配置Terraform:适用于网络连接较差或需要自定义开发环境的场景。
说明请确认Terraform版本不低于v0.12.28,可通过terraform --version命令查看Terraform版本。
请确保部署集内ECS实例配额充足,默认为20台;所需机型库存充足。具体信息,请参见查看和提升资源配额。
由于阿里云账号(主账号)具有资源的所有权限,一旦发生泄露将面临重大风险。建议您使用RAM用户,并为该RAM用户创建AccessKey,具体操作方式请参见创建RAM用户和创建AccessKey。
为运行Terraform命令的RAM用户绑定以下最小权限策略,以获取管理本示例所涉及资源的权限。更多信息,请参见为RAM用户授权。
该权限策略允许RAM用户进行VPC、交换机、部署集及ACK的创建、查看与删除操作。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "vpc:CreateVpc", "vpc:CreateVSwitch", "cs:CreateCluster", "vpc:DescribeVpcAttribute", "vpc:DescribeVSwitchAttributes", "vpc:DescribeRouteTableList", "vpc:DescribeNatGateways", "cs:DescribeTaskInfo", "cs:DescribeClusterDetail", "cs:GetClusterCerts", "cs:CheckControlPlaneLogEnable", "cs:CreateClusterNodePool", "cs:DescribeClusterNodePoolDetail", "cs:ModifyClusterNodePool", "vpc:DeleteVpc", "vpc:DeleteVSwitch", "cs:DeleteCluster", "cs:DeleteClusterNodepool", "ecs:CreateDeploymentSet", "ecs:DescribeDeploymentSets", "ecs:ModifyDeploymentSetAttribute", "ecs:DeleteDeploymentSet" ], "Resource": "*" } ] }
背景信息
在同一个可用区下,为了保证高可用性,您通常会选择跨主机部署服务。但当一台物理机出现问题时,会影响到应用的所有副本。为了解决这个问题,ECS提供了部署集功能。部署集内的所有ECS实例会在指定地域内严格分散在不同的物理服务器上,满足服务相互隔离的应用架构,大幅降低服务不可用的几率。关于部署集的更多信息,请参见部署集。
使用限制
集群中功能使用须知
部署集仅支持ACK专有集群和ACK托管集群。
部署集仅在新建节点池时支持指定,不支持为已有节点池开启。每个节点池仅支持绑定一个部署集,且不支持更换。
部署集不支持手动添加或移除节点。您可以通过扩缩容节点池的操作,调整部署集中的节点数。具体操作,请参见创建节点池。
开启部署集功能后,不支持创建抢占式实例。
部署集配额与规格限制
节点池部署集默认基于高可用策略实现。高可用策略下,在部署集内创建ECS实例时,一个可用区内最多能创建20台ECS实例,一个阿里云地域下能创建的ECS实例数量为
20*可用区数量
。更多信息,请参见部署集。一个部署集内能容纳的实例数量不支持提升。但如果您需要提高当前账户可拥有的部署集最大数量,请前往配额平台申请。关于部署集使用限制及配额的更多信息,请参见部署集使用限制。
支持的实例规格族限制:
不同部署策略仅支持创建特定的实例规格族,具体信息如下。
说明您也可以调DescribeDeploymentSetSupportedInstanceTypeFamily指定部署集策略来获取各部署集策略支持的实例规格族。
部署策略
支持的实例规格族
高可用策略和部署集组高可用策略
g8a、g8i、g8y、g7se、g7a、g7、g7h、g7t、g7ne、g7nex、g6、g6e、g6a、g5、g5ne、sn2ne、sn2、sn1
c8a、c8i、c8y、c7se、c7、c7t、c7nex、c7a、c6、c6a、c6e、c5、ic5、sn1ne
r8a、r8i、r8y、r7、r7se、r7t、r7a、r6、r6e、r6a、re6、re6p、r5、re4、se1ne、se1
hfc8i、hfg8i、hfr8i、hfc7、hfg7、hfr7、hfc6、hfg6、hfr6、hfc5、hfg5
d3c、d2s、d2c、d1、d1ne、d1-c14d3、d1-c8d3
i3g、i3、i2、i2g、i2ne、i2gne、i1
ebmg5、ebmc7、ebmg7、ebmr7、sccgn6、scch5、scch5s、sccg5、sccg5s
e、t6、xn4、mn4、n4、e4、n2、n1、
gn6i
网络低时延策略
g8a、g8i、g8ae、g8y
c8a、c8i、c8ae、c8y
ebmc8i、ebmg8i、ebmr8i
r8a、r8i、r8ae、r8y
ebmc7、ebmg7、ebmr7
在部署集内创建ECS实例失败,或重启按量付费ECS实例(节省停机模式)失败,可能是因为地域内实例资源库存不足,您可以等待一段时间后重试创建实例或重启实例。
使用的资源
本教程示例包含的部分资源会产生一定费用,请在不需要时及时进行释放或退订。
alicloud_vpc:创建专有网络VPC。
alicloud_vswitch:创建虚拟交换机(vSwitch)为VPC划分一个或多个子网。
alicloud_ecs_deployment_set:创建部署集。
alicloud_cs_managed_kubernetes:创建ACK托管版集群。
alicloud_cs_kubernetes_node_pool:为ACK托管集群创建节点池。
通过Terraform创建指定部署集的节点池
使用以下示例内容,创建指定部署集的节点池。
provider "alicloud" { region = var.region_id } variable "region_id" { type = string default = "cn-shenzhen" } variable "name" { default = "tf-example" } variable "strategy" { default = "Availability" description = "The deployment strategy. Valid values: Availability, AvailabilityGroup, LowLatency." } variable "cluster_spec" { type = string description = "The cluster specifications of kubernetes cluster,which can be empty. Valid values:ack.standard : Standard managed clusters; ack.pro.small : Professional managed clusters." default = "ack.pro.small" } # 指定虚拟交换机(vSwitches)的可用区。 variable "availability_zone" { description = "The availability zones of vswitches." default = ["cn-shenzhen-c", "cn-shenzhen-e", "cn-shenzhen-f"] } # 用于创建新vSwitches的CIDR地址块列表。 variable "node_vswitch_cidrs" { type = list(string) default = ["172.16.0.0/23", "172.16.2.0/23", "172.16.4.0/23"] } # 用于创建Terway使用的vSwitch的CIDR地址块。 variable "terway_vswitch_cidrs" { type = list(string) default = ["172.16.208.0/20", "172.16.224.0/20", "172.16.240.0/20"] } # 定义了用于启动工作节点的ECS实例类型。 variable "worker_instance_types" { description = "The ecs instance types used to launch worker nodes." default = ["ecs.g6.2xlarge", "ecs.g6.xlarge"] } # 设置工作阶段的密码 variable "password" { description = "The password of ECS instance." default = "Test123456" } # 指定ACK集群安装的组件。包括Terway(网络组件)、csi-plugin(存储组件)、csi-provisioner(存储组件)、logtail-ds(日志组件)、Nginx Ingress Controller、ack-arms-prometheus(监控组件)以及ack-node-problem-detector(节点诊断组件)。 variable "cluster_addons" { type = list(object({ name = string config = string })) default = [ { "name" = "terway-eniip", "config" = "", }, { "name" = "logtail-ds", "config" = "{\"IngressDashboardEnabled\":\"true\"}", }, { "name" = "nginx-ingress-controller", "config" = "{\"IngressSlbNetworkType\":\"internet\"}", }, { "name" = "arms-prometheus", "config" = "", }, { "name" = "ack-node-problem-detector", "config" = "{\"sls_project_name\":\"\"}", }, { "name" = "csi-plugin", "config" = "", }, { "name" = "csi-provisioner", "config" = "", } ] } # 指定创建ACK托管集群名称的前缀。 variable "k8s_name_prefix" { description = "The name prefix used to create managed kubernetes cluster." default = "tf-ack" } variable "vpc_name" { default = "tf-vpc" } variable "nodepool_name" { default = "default-nodepool" } # 默认资源名称。 locals { k8s_name_terway = substr(join("-", [var.k8s_name_prefix, "terway"]), 0, 63) } # 专有网络。 resource "alicloud_vpc" "default" { vpc_name = var.vpc_name cidr_block = "172.16.0.0/12" } # Node交换机。 resource "alicloud_vswitch" "vswitches" { count = length(var.node_vswitch_cidrs) vpc_id = alicloud_vpc.default.id cidr_block = element(var.node_vswitch_cidrs, count.index) zone_id = element(var.availability_zone, count.index) } # Pod交换机。 resource "alicloud_vswitch" "terway_vswitches" { count = length(var.terway_vswitch_cidrs) vpc_id = alicloud_vpc.default.id cidr_block = element(var.terway_vswitch_cidrs, count.index) zone_id = element(var.availability_zone, count.index) } # 创建部署集 resource "alicloud_ecs_deployment_set" "default" { strategy = var.strategy domain = "Default" granularity = "Host" deployment_set_name = var.name description = "example_value" } # Kubernetes托管版。 resource "alicloud_cs_managed_kubernetes" "default" { name = local.k8s_name_terway # Kubernetes集群名称。 cluster_spec = var.cluster_spec # 创建Pro版集群。 worker_vswitch_ids = split(",", join(",", alicloud_vswitch.vswitches.*.id)) # 节点池所在的vSwitch。指定一个或多个vSwitch的ID,必须在availability_zone指定的区域中。 pod_vswitch_ids = split(",", join(",", alicloud_vswitch.terway_vswitches.*.id)) # Pod虚拟交换机。 new_nat_gateway = true # 是否在创建Kubernetes集群时创建新的NAT网关。默认为true。 service_cidr = "10.11.0.0/16" # Pod网络的CIDR块。当cluster_network_type设置为flannel,你必须设定该参数。它不能与VPC CIDR相同,并且不能与VPC中的Kubernetes集群使用的CIDR相同,也不能在创建后进行修改。集群中允许的最大主机数量:256。 slb_internet_enabled = true # 是否为API Server创建Internet负载均衡。默认为false。 enable_rrsa = true control_plane_log_components = ["apiserver", "kcm", "scheduler", "ccm"] # 控制平面日志。 dynamic "addons" { # 组件管理。 for_each = var.cluster_addons content { name = lookup(addons.value, "name", var.cluster_addons) config = lookup(addons.value, "config", var.cluster_addons) } } } # 普通节点池。 resource "alicloud_cs_kubernetes_node_pool" "default" { cluster_id = alicloud_cs_managed_kubernetes.default.id # Kubernetes集群名称。 node_pool_name = var.nodepool_name # 节点池名称。 vswitch_ids = split(",", join(",", alicloud_vswitch.vswitches.*.id)) # 节点池所在的vSwitch。指定一个或多个vSwitch的ID,必须在availability_zone指定的区域中。 instance_types = var.worker_instance_types instance_charge_type = "PostPaid" runtime_name = "containerd" desired_size = 2 # 节点池的期望节点数。 password = var.password # SSH登录集群节点的密码。 install_cloud_monitor = true # 是否为Kubernetes的节点安装云监控。 system_disk_category = "cloud_essd" system_disk_size = 100 image_type = "AliyunLinux" deployment_set_id = alicloud_ecs_deployment_set.default.id data_disks { # 节点数据盘配置。 category = "cloud_essd" # 节点数据盘种类。 size = 120 # 节点数据盘大小。 } }
执行如下命令,初始化Terraform运行环境。
terraform init
返回信息如下,Terraform初始化成功。
Terraform has been successfully initialized! You may now begin working with Terraform. Try running "terraform plan" to see any changes that are required for your infrastructure. All Terraform commands should now work. If you ever set or change modules or backend configuration for Terraform, rerun this command to reinitialize your working directory. If you forget, other commands will detect it and remind you to do so if necessary.
执行以下命令完成创建。
terraform apply
返回信息如下,部署集指定成功
Do you want to perform these actions? Terraform will perform the actions described above. Only 'yes' will be accepted to approve. Enter a value: yes ... Apply complete! Resources: 10 added, 0 changed, 0 destroyed.
验证结果
执行terraform show命令
您可以使用以下命令查询Terraform已创建的资源详细信息。
terraform show
登录ACK控制台
您可以在容器服务管理控制台的节点池页面查看到新建的节点池。单击操作列的编辑,可以查看到指定的部署集。
清理资源
当您不再需要上述通过Terraform创建或管理的资源时,请运行terraform destroy
命令以释放资源。关于terraform destroy
的更多信息,请参见Terraform常用命令。
terraform destroy
完整示例
本教程所含示例代码支持一键运行,您可以直接运行代码。一键运行
示例代码
如果您想体验更多完整示例,请前往更多完整示例中对应产品的文件夹查看。
相关文档
如何在ACK节点池中使用部署集控制ECS实例的分布,请参见节点池部署集最佳实践。
ROS提供了Terraform托管服务,因此您可以直接在ROS控制台部署Terraform模板。详细操作,请参见创建Terraform类型资源栈。