网络智能运维设计 - 云网络卓越架构设计指南

概述

本文简介

随着数字化转型的深入，企业越来越依赖云计算技术来支撑业务运营。云上网络运维对于确保云平台高效、安全运行至关重要，不仅关乎数据的安全传输，还直接影响服务的可用性。

与传统IT架构相比，云环境下的网络和产品功能更为复杂、抽象程度更高。面对庞大的参数配置空间和不可见的底层实现，传统的依靠人工经验的方法已难以胜任，必须采用先进的自动化工具辅助决策。因此，构建全面的云上网络智能运维体系变得尤为重要。利用这个体系能够及时识别和解决潜在的问题，保障业务连续性与稳定性。

在运维实践中，我们的目标是实现问题的迅速定位与解决、预防潜在故障的发生以及构建和优化网络架构与性能。为此，我们推荐采取以下方法：

告警：通过部署云监控系统来实时感知系统的运行状态，并在检测到异常时立即触发告警通知。这有助于快速感知和响应问题，减少服务中断时间。
巡检：定期执行全面的网络巡检，以识别并修复可能存在的隐患或风险点。这种方法可以有效避免引发重大事故的隐患。
观测：基于流量数据和智能运维（AIOps）系统对网络环境实施持续性的观察。通过对关键指标进行跟踪分析，不仅可以发现趋势性变化从而提前做好规划准备，同时也能针对现有架构提出改进建议，进一步提升网络的稳定性与性能。

本文关键词

NIS：网络智能服务 NIS（Network Intelligence Service）是一系列云上网络AIOps工具集，提供了云上网络从网络规划到网络运维全生命周期。包括流量分析、网络巡检、网络性能监控、网络诊断、路径分析、网络拓扑等功能，帮助用户优化网络架构、提升网络运维效率、降低网络运营成本。
云监控：云监控（CloudMonitor）是一项针对阿里云资源和互联网应用进行监控的服务。
VPC：专有网络VPC（Virtual Private Cloud）是用户基于阿里云创建的自定义私有网络, 不同的专有网络之间二层逻辑隔离，用户可以在自己创建的专有网络内创建和管理云产品实例，比如ECS、SLB、RDS等。
EIP：弹性公网 IP（Elastic IP Address）是可以独立购买和持有的公网IP地址资源。
NAT：NAT网关（NAT Gateway）可以提供网络地址转换服务。
ALB：应用型负载均衡ALB（Application Load Balancer）是阿里云推出的专门面向HTTP、HTTPS和QUIC等应用层负载场景的负载均衡服务，具备超强弹性及大规模应用层流量处理能力。ALB具备处理复杂业务路由的能力，与云原生相关服务深度集成，是阿里云官方提供的云原生Ingress网关。
NLB：网络型负载均衡NLB（Network Load Balancer ）是阿里云面向万物互联时代推出的新一代四层负载均衡，支持超高性能和自动弹性能力，单实例可以达到1亿并发连接，帮您轻松应对高并发业务。
CLB：传统型负载均衡CLB（Classic Load Balancer）是将访问流量根据转发策略分发到后端多台云服务器的流量分发控制服务。CLB扩展了应用的服务能力，增强了应用的可用性。
云企业网：云企业网CEN（Cloud Enterprise Network）是运行在阿里云私有全球网络上的一张高可用网络。云企业网通过转发路由器TR（Transit Router）帮助您在跨地域专有网络之间，专有网络与本地数据中心间搭建私网通信通道，为您打造一张灵活、可靠、大规模的企业级云上网络。
VPN网关：VPN 网关（VPN Gateway）是一款提供网络连接服务的产品，通过建立加密隧道的方式实现企业本地数据中心、企业办公网络、互联网客户端与阿里云之间安全可靠的网络连接。
物理专线：物理专线是通过物理电缆或光纤连接不同机房的物理线路连接，通常由运营商提供和维护。根据不同的交付形态，连接阿里云专线接入点机房的物理专线分为独享物理专线和共享物理专线。
高速通道：高速通道（Express Connect）是一款连接企业数据中心与阿里云的网络服务，可在企业数据中心与云上网络之间建立高速、稳定、安全的私网通信通道。高速通道的数据传输过程可信可控，能有效提高网络通信的质量及安全性。
VBR：阿里云基于软件自定义网络SDN架构下的三层Overlay技术和交换机虚拟化技术，将物理专线的接入端口隔离起来，并抽象成边界路由器VBR（Virtual border router）。VBR是CPE（Customer-premises equipment）设备和专有网络VPC之间的一个路由器，作为数据从VPC到本地数据中心IDC的转发桥梁。

设计原则

在本篇网络卓越架构设计中，我们建议遵循以下原则：

告警驱动的运维响应机制

事件订阅机制：对影响业务的时间设置订阅并制定告警机制。此步骤有助于第一时间发现系统异常、性能问题或安全威胁。
严重告警即时响应流程：制定严格的应急响应计划，特别是对于标记为“严重”的告警，需要有明确的预案，并指定专人负责协调处理，直到问题完全解决。
定期查看事件中心：设定固定的周期性检查计划，用于审查事件中心中的历史记录。通过对这些数据的分析，可以提前识别出趋势性问题或慢性隐患，采取预防性措施防止服务中断。

巡检为核心的隐患排查机制

建议实施定期的网络巡检，依据巡检报告，全面识别并解决隐患和潜在风险。通过构建系统化的网络运维管理体系，主动监控网络状态，迅速应对可能影响网络稳定性和安全性的因素。

观测导向的网络优化机制

保持流量分析功能的启用状态，基于吞吐、丢包、时延、用户分布等数据对网络流量进行不间断监控和深入分析，有利于运维人员基于流量情况对业务架构做优化。
使用拓扑生成工具帮助运维人员了解网络的实时状态，优化网络结构。
使用网络洞察仪，以达到对公网环境和问题的精准把握，从而实现公网的优化管理。

设计关键点

依靠“告警”感知和定位问题

掌握告警能力

系统事件告警

系统事件：系统事件汇集了各类云产品的故障和运维事件。通过订阅系统事件，您可以在事件发生时及时收到通知或触发外部系统。您需要设置系统事件的订阅范围，包括：产品、事件类型、事件名称、事件等级、应用分组、事件内容和事件资源。

我们建议基于云监控系统事件的告警能力，开启云监控的网络模块的所有“系统事件”。依据阿里云所设定的系统事件框架，用户能够接收到并监控关键性的警报通知。通过这一机制，可以确保对重要信息的及时关注与响应，从而有效提升系统的稳定性和安全性。

云监控支持的系统事件请参考支持的云产品及其系统事件。

网络系统事件分类：

带宽和性能限制

超限事件：包括私网带宽、公网带宽、ALB、CLB、NLB等各类负载均衡器的带宽和连接数超限。
丢包：由于带宽超限导致的丢包事件，涉及ALB、CLB、VPC、NAT等。
QPS和请求限制：ALB的QPS超限导致503错误码。

连接管理和会话控制

会话超限和连接丢失：ALB、CLB的会话超限导致新建连接丢失，NLB新建连接突增等。
失败连接情况：CLB、NLB的失败连接数骤增。

路由和网络稳定性

路由超限：CEN路由数量、BGP动态路由数量等超限。
网络波动：CEN网络抖动、VPC私网抖动等情况。
链路故障：EC专线链路故障、BGP连接故障等。

VPN和IPSEC相关

带宽和连接问题：VPN带宽超限、IPSec连接协商结果等。
健康检查：VPN和IPSec的健康检查成功或失败。

终端节点和连接管理

终端节点操作：包括终端节点连接的接受、拒绝、增加和删除等事件。

证书问题

证书和安全问题：负载均衡证书到期提醒，VPN相关证书到期等。

业务告警

阈值事件：当阈值报警规则满足报警条件时，会同时触发云监控的阈值事件，通过订阅阈值事件，您可以对报警通知进行细粒度的控制和定制化，例如：合并降噪、自定义通知方式等。您需要设置阈值事件的订阅范围，包括：产品分类、监控指标、严重等级和应用分组。

我们建议基于云监控中的监控指标，对业务关键性能指标进行精细化的报警规则与阈值设定，基于报警规则设定相关阈值事件告警。结合趋势分析、异常检测的手段，能够及时准确地捕捉到潜在问题或异常波动，从而为运维团队提供强有力的支持，确保服务稳定性和用户体验。

云监控支持的监控指标请参考附录1 云产品监控指标。

订阅告警通知

通知设置取值如下：按照报警级别划分为：严重（Critical）、警告（Warn）、信息（Info）和恢复。

针对不同级别的告警信息，我们建议配置与之对应的通知机制。对于被归类为“严重”且直接影响业务连续性的告警，推荐采用电话告警作为首要通知手段，并立即响应与处理。对于那些虽然触发了告警但并未对日常运营造成实质性影响的情况，则建议设立每日固定时间窗口进行统一审查及后续管理。这样既能确保关键问题得到及时解决，又能有效避免资源浪费于非紧急事项上。

管理通知模板请参考管理通知模板。

系统事件告警

创建云监控系统事件的订阅：可以通过云监控控制台>事件中心>事件订阅，创建“系统事件”订阅。

业务告警

基于业务创建告警规则
当需要监控各云产品资源的使用情况时，可以创建报警规则。如果资源的监控指标达到报警条件，云监控自动发送报警通知，帮助客户及时得知异常监控数据，并快速处理。
基于云监控的监控指标，用户可以基于自身的业务指标创建告警事件。可以通过云监控控制台>报警服务>报警规则，创建“报警规则”。
创建云监控阈值事件的订阅
可以通过云监控事件订阅，对报警通知进行定制化处理。在本指南中，通过订阅阈值事件、对报警进行合并降噪、升级报警联系组、自定义报警通知方式、将报警按照数据模板（JSON格式）推送至目标渠道。
可以通过云监控控制台>事件中心>事件订阅，创建“阈值事件”订阅。

告警处理

系统事件告警

在云监控平台中发生的事件，用户可通过访问控制台内的“事件中心”模块下的“通知历史”子项，来查看系统事件相关的通知记录。运维人员能够依据事件中心提供的详细信息及建议采取相应的行动措施，从而有效地管理和解决潜在问题。

对于标记为严重级别的事件通知，应立即启动紧急处理流程，确保快速响应以减轻任何可能的影响。而对于日常运营过程中遇到的一般性事件，则推荐运维人员每日定期检查“事件中心”，以此作为例行维护的一部分，确保系统的稳定运行与高效性能。

业务告警

为了确保业务的高效运作，可以通过访问云监控控制台中的“事件中心”模块下的“通知历史”子项，依据自定义规则查看业务告警。

建议基于业务诉求，设计满足预设条件时触发函数计算服务（FC）或者执行自动化脚本来自动处理问题，或定期管理事件中心内的记录。这样不仅能够提高问题解决的速度，还能通过自动化能力来优化资源使用情况。

依靠“巡检”挖掘和消除隐患

掌握巡检能力

稳定性风险
在高可用性架构设计中，如果主备配置存在缺陷，则可能导致故障切换机制失效，进而影响系统的连续性和稳定性。此外，资源部署策略不当会扩大故障的影响范围，即所谓的“爆炸半径”增大，这意味着一旦发生问题，受影响的服务或组件数量将显著增加，从而对整体业务造成更大的冲击。
因此，基于巡检优化资源配置方案、确保主备切换逻辑的正确实现是提高系统容错能力和降低潜在风险的关键措施。
安全性风险
ACL的策略可能未能精确匹配实际需求，导致非授权访问或流量过滤不充分的问题。安全组规则定义的过于宽泛，为不必要的端口和服务开放了过多权限，违反了最小权限原则（Principle of Least Privilege, PoLP），增加了遭受恶意攻击的风险。
巡检对现有ACL、安全组规则进行细致审查，确保仅允许必要的通信路径，从而提高整体网络安全水平。
性能风险
在性能上，可能由于网络性能问题或绕行现象，从而引起了额外的传输延迟。也可能出现流量频繁超出设计容量上限，造成流量丢包的问题。
建议使用巡检对网络时延进行监控，并基于巡检报告对告警资源进行扩容处理，以满足日益增长的数据传输需求，并确保服务质量（QoS）达到预期标准。
成本浪费
成本面临的主要问题在于资源利用效率低下，导致了不必要的资源浪费；多样化的计费模式，在选择上可能存在不当之处，这不仅影响了成本效益比，也可能对整体财务规划造成不利影响。
可以通过巡检优化资源配置策略来提升利用率，并且基于详细的成本效益分析，合理选取最适宜的计费方案，以达到控制开支、提高投资回报率的目的。

网络巡检项请参考网络巡检。

执行巡检

建议定期（如每周）执行网络巡检生成报告，以便及时掌握现网运行状态，精准定位并分析网络资源利用中存在的潜在问题或异常情况。通过持续监控与评估，可以有效提升网络架构稳定性，降低成本，确保业务连续性不受影响。

通过NIS控制台 >网络巡检 >查看历史报告 >重新发起巡检，查看每周的网络巡检报告。

基于评分评估网络整体状况：通过分析巡检通过率，对整个网络的健康状况进行综合评价。这种方法能够提供一个直观且量化的视角，帮助运维团队快速识别网络性能的整体水平及其潜在问题区域。
按风险等级逐级审查：按照优先级顺序，从高风险到低风险依次审阅各项指标。根据巡检报告中提供的专业建议，针对不同级别的风险点采取相应的优化措施。此过程不仅有助于及时处理可能影响系统稳定性的严重隐患，同时也为持续改进网络环境提供了明确的方向与路径。

隐患处理

隐患处理举例：

成本控制项
- EIP: 基于闲置EIP检查，释放资源的空余造成的浪费。
- CEN: 根据实际流量调整跨地域带宽，确保不会过度预置资源。
稳定性提升
- 超限风险：网络带宽水位超限风险、其他规格超限风险。
- AZ级单点故障隐患：ALB、NLB、TR单可用区部署造成的稳定性风险。
- 链路级单点故障隐患：高速通道单专线、全球加速单可用区、VPN单隧道等风险。
- 业务不可用风险：业务异常风险。

依靠“观测”做网络全局优化

掌握观测能力

拓扑生成 – 可视化方式查看网络全貌

网络拓扑图可以清晰地展示网络中资源的连接和关系，可视化网络结构，帮助客户快速了解的云上网络架构，进行网络配置验证、网络问题排查和云网络资源统一运维。

拓扑	可展示的信息
VPC	资源：ECS、交换机、路由器等路由：VPC内、外相关网元及其路由表
CEN	全球TR、TR连接的VPC、TR间互联等
SLB	SLB的可用区、VIP、EIP、安全组等

流量分析 – 多维度查看流量排序
流量分析可以监控网络中的实时流量以及追溯历史流量。流量分析还可以根据分析结果在控制台生成可视化的时序曲线图。可以根据流量数据或者流量监控指标排查并解决问题。
- 公网流量分析：根据绑定公网IP的实例类型分析地域内例如传统型负载均衡CLB（Classic Load Balancer）的公网IP的流量、云服务器 ECS（Elastic Compute Service）实例的公网IP的流量、公网NAT网关的公网IP的流量、弹性公网IP（Elastic IP Address，简称EIP）的流量以及在同一个共享带宽包中EIP的流量。
- 混合云流量分析：分析转发路由器 TR（TransitRouter）连接边界路由器VBR（Virtual Border Router）时，混合云场景下流经VBR出入方向的流量。
- 跨域流量分析：分析不同地域间流经TR出入方向的跨域流量，并能够以一元组、二元组、五元组展示。
- 同域流量分析：分析TR连接专有网络 VPC（Virtual Private Cloud）时，同地域跨VPC场景下流经TR出入方向的流量。
- 网元流量分析：在网络智能服务管理控制台的概览页面，支持分析公网NAT网关的流量数据，且可以在控制台生成可视化的时序曲线图。
公网质量 – 运营商网络质量下降带来的影响
- 运营商公网质量（RTT、重传率）下降感知
- 运营商公网质量下降事件（哪个时间段、哪个运营商、哪个区域、多大流量）感知
- 公网质量下降影响的公网IP感知

按需观测

网络拓扑
NIS控制台中，通过访问“网络拓扑”模块，您可以选定特定的网络实例，并启动拓扑生成流程。此过程支持拓扑下钻功能，以获取网络不同层级信息。利用这一功能，能够促进对当前网络资源配置状态的全面理解与可视化呈现，还便于进行网络管理和运维。
1. VPC拓扑：专有网络拓扑包括资源拓扑与路由拓扑，为您展示专有网络VPC下各类资源之间的关联关系与路由转发路径，并支持查看相关网络实例的基本信息，进行实例诊断，路径分析等操作。
2. CEN拓扑：云企业网拓扑基于实时配置，为您展示云企业网上各个转发路由器已建立的同地域和跨地域连接情况，可视化云企业网构建起的全球资源在云间的连接关系，并支持查看相关网络实例的基本信息。帮助您更直观地了解和管理云上组网。
3. SLB拓扑：负载均衡拓扑为您展示负载均衡中具备绑定关系的监听和后端服务器组的组网关系，并支持查看相关网络实例的基本信息，进行实例诊断等操作，帮助您查看流量分发是否符合预期。
流量分析
NIS控制台中，通过访问“流量分析”模块，您可以监控网络中的实时流量以及追溯历史流量。使用流量分析功能，可以快速帮助您基于一元组（本端IP）、二元组（本端IP、对端IP）、五元组（本端IP、本端端口、协议、对端IP、对端端口）信息，分析TopN级别流量。
使用流量分析之前，您需要分别开通公网流量分析，混合云流量分析、跨域流量分析和同域流量分析功能。
- 公网流量分析功能是以地域或者公网IP粒度开通，如果选择地域则开通该地域下全部公网IP。
- 混合云流量分析功能是以TR下的VBR连接为粒度开通。
- 跨域流量分析功能是以TR下的跨地域连接为粒度开通。
- 同域流量分析功能是以TR下的专有网络连接为粒度开通。
网络洞察仪
NIS控制台中，通过访问“网络洞察仪”模块，您可以使用洞察仪获取实时公网质量评估数据，及时感知公网质量劣化，接收公网质量异常事件和影响面分析。
您需要为洞察仪配置网络监测对象，创建之后，等待约10分钟，洞察仪将为您开启资源流量采集并发布特定指标。点击洞察仪名称可查看网络质量评分、公网质量事件、影响的公网IP等公网事件，帮助您感知公网质量，及时对业务做出调整。

分析优化

基于网络拓扑的观测做优化
1. 网络拓扑图有助于全面分析网络架构，涵盖结构概述、路径分析及资源分配状况。
2. 利用拓扑可高效识别潜在问题：
  - 冗余检查：确保具备充足的冗余措施以避免单点故障。
  - 配置审核：审查设备配置是否遵循最佳实践，并修正错误设置。
  - 安全检查：检查可能存在的安全风险，如非必要开放的端口和服务。
3. 对于未充分利用或闲置资源，建议采取如下操作：
  - 资源回收：释放不再需要的IP地址与端口。
  - 优化配置：优化资源配置，停用不必要服务。
基于流量分析做流量和业务优化
1. 公网优化
  通过公网流量分析，可以精准地识别用户群体的主要分布区域。在热点地区部署业务服务，能够显著降低用户的访问延迟，提升用户体验。
  利用带宽利用率、五元组统计（源IP、目的IP、源端口、目的端口及传输层协议）以及往返时间（RTT）等关键性能指标，持续监控当前公网网络状态。这些数据不仅有助于识别流量高峰期，还能为容量规划和流量管理提供依据，确保在网络高负载情况下仍能维持服务的高可用性和稳定性。
2. 内网优化
  对于内部网络环境下的流量优化，建议对大象流进行检测（流量TOP N分析），即通过对流量排名前N位的数据流进行深入分析，以识别并解决异常流量使用情况。此方法有助于保障关键业务流量优先级，减少非关键任务对整体网络性能的影响。定期检查TCP重传率也是评估内网丢包状况及其对业务连续性潜在影响的有效手段之一。根据上述监测结果采取适当措施进行调整与优化，可进一步提高内网通信效率及可靠性。
基于网络洞察仪定位公网问题
基于网络洞察仪，客户可以实时洞察在【客户端位置+运营商网络】链路上的公网流量运行状况，基于智能动态基线算法检测客户的公网流量是否发生性能下跌事件和公网可用性下跌事件，并提供详细的事件分析，包括受影响流量分析和公网链路探测等，帮助进行异常排查。客户也可以实时使用公网流量来源地图查看RTT和访问流量信息，监测公网实时数据。可以基于以上信息，客户可以对公网进行实时调整，避免业务受损。

设计最佳实践

基于上述设计理念，我们总结了网络运维三步走的最佳实践。

看告警，解问题

按“天”查看。严重告警要手机实时收取告警消息。

常巡检，消隐患

按“周”运行。

多观测，做优化

按“需”分析。

应用场景介绍

网络运维告警场景

通知风险和异常：如果发生了实例资源可用性或性能受损的事件，例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等，阿里云会将事件推送到NIS或云监控的事件中心进行展示，及时响应这些事件，避免因资源可用性或性能受损影响业务。
实现自动化运维：在NIS事件中心的控制台展示的事件均定义了事件状态，方便区分相应系统运维任务的执行情况，而且事件产生及状态变化时会上报至云监控，可以根据自身需要搭建事件驱动的自动化运维体系。

网络运维巡检场景

在搭建和维护大型网络组网和资源时，由于短时间对云产品的了解有限，可能导致存在与最佳实践有偏差的网络配置情况，后续通过不断的完善配置，将会产生大量的网络资源实例，但由于人力难以支撑对网络资源的配置和使用进行校验和检查，可以通过网络巡检能力对整体网络架构和资源进行排查梳理，并为您提供网络优化建议。

网络运维观测场景

网络拓扑结构分析：通过网络拓扑功能对阿里云网络架构进行全面解析，旨在识别并优化网络节点间连接方式及其布局。网络拓扑图可以清晰地展示网络中资源的连接和关系，可视化网络结构，帮助您快速了解您的云上网络架构，进行网络配置验证、网络问题排查和云网络资源统一运维。
网络流量监测与管理：为云上网络的流量监控提供统一的平台，方便客户网络运维管理人员进行统一化监控。流量分析可以监控网络中的实时流量以及追溯历史流量。
公共互联网质量评估：针对公共互联网链路执行定期或持续性的质量测试，包括但不限于延迟（latency）、丢包率（packet loss rate）及抖动（jitter）等多项关键指标的测量与分析，以此来衡量外部接入服务的整体表现，并采取相应措施改善用户体验。