全部产品
Search
文档中心

云服务器 ECS:成本优化最佳实践

更新时间:Nov 25, 2024

本文介绍云服务器ECS的成本构成和优势,并提供成本管理的推荐方案,帮助您通过成本管理节约成本,在保障业务快速发展的同时按照预算支出费用,获得最大成本收益。

成本构成

传统企业IT基础设施的成本构成情况,即总拥有成本TCO(Total Cost of Ownership),包括从产品采购到后期使用、维护的成本。您在评估IT基础设施的时,实际评估的指标就是每单位IT基础设施的TCO。对于TCO的核算需要基于您真实的业务部署环境变量,例如机柜租金、机柜使用电费、服务器品牌及价格、是否考虑规避单点失效可能性(双设备、双上莲)等一系列前提条件下,得出TCO=服务器+网络+IDC支出+其他开销(人力、公网、额外税费等)。

在这四大类IDC成本构成中,服务器采购和网络建设部分都属于资本性支出(CAPEX),需要您的企业采购后按照一定的周期进行折旧分摊,剩余的IDC支出(租金和电费等)及其他开销大多数属于运营成本(OPEX),根据资源使用的时间而持续地产生投入。从企业经营的角度来看,CAPEX一次性投入较大,业务不确定性较强,一次性投入后可再次进行调整的空间有限,如果发生需求变动,可能会导致已经支出的成本浪费。而OPEX支出稳定,比较适合应对业务调整而随机应变,如果能将企业的CAPEX全部转换为OPEX,则是企业面对不确定需求的更优解决方案。

云服务器ECS作为阿里云为您提供的云计算服务,为您提供云上计算资源,使用云服务器ECS替代掉您的传统IT基础设施,可以帮助您降低CAPEX,提高OPEX占比。一方面可以改善您企业的现金流状况,另一方面可以提升企业抗风险能力。使用云服务器ECS时,成本主要包括以下两个方面:

  • 拥有成本:这部分成本涉及使用各类资源和资源包的费用。具体来说,包括但不限于:

    • 实例规格费用

    • 云盘容量费用

    • 镜像费用

    • 公网带宽费用

    • 快照费用

  • 运维成本:这部分成本指您在使用云服务器ECS过程中产生的人力成本。可能包括:

    • 系统管理与维护

    • 安全监控与防护

    • 故障排查与修复

    • 软件更新与配置

上云的成本优势

自建数据中心时,除硬件、网络、电力、机房、人力运维成本等直接成本外,还需要考虑升级、扩容等带来的规模成本,以及备份数据、实现高可用等带来的风险成本。随着业务发展扩大数据中心规模时,单位资源成本和数据中心复杂度会不断增长,而且容错率低。如果在业务变化时选型失误,更会增加额外的支出。

相比自建数据中心,使用云上资源时无须投入硬件、物理环境、人力等成本,单位资源成本相对线性,所有资源按需取用,交付便利。除资源成本的优势外,云上资源还支持多种付费模式,方便进一步优化成本。

成本优化建议

优化资源

发现成本偏高的资源后,您可以从多个角度监控资源的情况,确定成本偏高的原因,然后采取针对性的优化措施。

  1. 监控资源的使用情况。

    1. 监控资源利用率,评估当前配置是否过高。例如CPU、内存、云盘、带宽等资源的利用率。

    2. 监控闲置的资源,避免浪费。例如升配但未重启的实例、未匹配实例的预留实例券、未挂载的云盘、未关联的EIP等。

    3. 监控资源使用周期。如果长期使用按量付费实例、云盘等资源,考虑以更实惠的方式购买,例如包年包月、资源包等。

    4. 监控资源生命周期,了解包年包月资源的到期日,及时续费。例如包年包月实例、预留实例券、存储容量单位包等。

  2. 选择合适的实例规格。

    实例规格对云服务器ECS成本有较大影响,根据业务场景选择性价比最佳的实例规格,并调整合适的数量。在满足业务需求的同时追求高资源利用率,降低成本。

    例如针对短视频场景,目前使用d1ne.14xlarge(10台),监控ECS实例发现内存使用率合理,但CPU相对空闲。因此可以采取以下方案:

    适当降低CPU和内存比,满足业务需求的同时提高CPU使用率。d1ne.14xlarge实例为1:4,d2s实例为1:4.4。使用d2s.10xlarge(13台)替换d1ne.14xlarge(10台),规格从14xlarge降为10xlarge,约节省18%的成本。

    更多实例配置选型的介绍,请参见选型最佳实践

  3. 组合多种付费模式。

    不同类型的业务对资源使用周期有不同要求。为每一类业务确定合适的付费模式,灵活组合达到最优效果。

    • 针对稳定业务负载,使用包年包月、预留实例券。

    • 针对有状态且动态变化的业务负载,使用按量付费。

    • 针对无状态且可容错的业务负载,使用抢占式实例。

  4. 利用专有宿主机DDH复用ECS实例资源。

    针对CPU绝对稳定性要求不严苛的场景,例如开发测试环境,使用超分型DDH部署更多同等规格的ECS实例,降低单位部署成本。

    部署在DDH上的ECS实例停机时不占用资源,您也可以在生产环境业务流量的低峰期停止部分ECS实例,使用生产环境的空闲资源运行可预期周期的测试任务,例如离线计算、自动化测试等。

升级换代

云服务器ECS的持续升级,加上处理器等硬件的更新换代,提高产品性能的同时,也降低了产品成本。通常情况,新实例规格性价比优于老实例规格。

例如,从g5.2xlarge升级到g6.2xlarge的性能和价格对比如下:

性能

价格

  • 整型运算性能提升40%

  • 浮点运算性能提升30%

  • 内存带宽提升15%

  • 内存空闲延迟降低40%

  • 内网带宽提升220%

  • 预付费包年成本降低6%

  • 按量付费成本降低43%

为保证您可以及时使用新一代实例规格,建议您:

  • 设计的应用具备鲁棒性,在不同实例规格上可以正常运行。

  • 关注阿里云官网中实例规格的发布情况,及时评估是否需要更换。

升级换代示例

按照以下参考替换方案,保证CPU、内存配置相同的前提下,可以提升性能并至少节约15%的实例成本:

当前实例规格族

首选推荐

备选推荐

sn1、sn2

  • c6

  • g6

  • r6

  • c5、sn1ne

  • g5、sn2ne

  • r5、se1ne

c4

hfc6、c6

hfc5、c5

ce4

r6

r5、se1ne

cm4

hfc6

hfc5、g5

n1、n2、e3

  • c6

  • g6

  • r6

  • c5、sn1ne

  • g5、sn2ne

  • r5、se1ne

  • t1

  • s1、s2、s3

  • m1、m2

  • c1、c2

  • c6

  • g6

  • r6

  • c5、sn1ne

  • g5、sn2ne

  • r5、se1ne

具备节约意识

云上资源的一个特点是按需取用,避免了自建数据中心所需的高昂一次性投入。针对按需取用的特点,您需要将成本优化融入到日常工作中,持续推进才能获得理想的优化成果。下面列举几个典型操作,您可以以此为模板进一步细化,形成贴合自身情况的方案。

  • 定期召开成本会议。定期和成本相关方(例如财务、研发等团队)评审预算执行情况,评估优化成果,改进优化策略。

  • 强制使用标签。利用标签按业务、环境、责任人等维度标记资源,便于日常成本追踪。

  • 分类资源并定制合适的使用方式。例如针对短期项目的开发测试环境,优先选用按量付费实例部署,项目结束后及时释放实例。

  • 避免资源闲置。定期盘点资源使用情况,明确闲置资源的通知和处置流程。

  • 及时续费。对包年包月资源,提前申请预算,避免到期释放后重新购买部署增加额外成本。

实现自动化运维

阿里云也提供了丰富的运维类产品,帮助您提高运维效率,降低运维的人力成本。例如:

  • 弹性伸缩:持续维护跨付费模式、跨可用区、跨实例规格的实例集群。适合业务负载存在峰谷波动的场景。

  • 弹性供应:一键部署跨付费模式、跨可用区和跨实例规格的实例集群。适合需要快速交付稳定算力,同时使用抢占式实例降低成本的场景。

  • 系统运维管理:以模板的方式定义一组运维操作,高效执行运维任务。适合事件驱动运维、定时运维、批量运维、跨地域运维等场景。

  • 资源编排:一键部署并维护包含多种云资源和依赖关系的资源栈。适合交付整体系统、克隆环境等场景。