全部产品
Search
文档中心

云网络卓越架构设计指南:专线构建混合云/多云网络

更新时间:Dec 13, 2024

概述

本文简介

本文重点介绍在云上云下业务协同或多云协同场景下,如何通过物理专线和阿里云云网络产品实现云上云下或多云之间的业务协同,快速构建安全、稳定、弹性的混合云或多云协同网络,以满足客户的云化进程。

本文面向技术人员,如CTO(首席技术官)、架构师、开发人员及运营团队成员等,介绍基于专线构建混合云或者多云相关的方案和方法,旨在为读者提供参考,以结合现有业务进行混合云或者多云网络的规划与设计。

本文关键词

  • 物理专线物理专线是通过物理电缆或光纤实现不同机房之间的物理线路连接,通常由运营商提供并维护。根据不同的交付形态,连接阿里云专线接入点机房的物理专线可分为独享物理专线和共享物理专线:

    • 独享物理专线企业可以自主将本地IDC与阿里云接入点通过专线方式连接,该方式确保独享一个物理端口,您可以通过高速通道控制台自主申请物理专线连接。此方案适用于带宽需求较大且对安全性与可靠性有较高要求的中大型企业客户。

    • 共享物理专线合作伙伴的接入点已经与阿里云的接入点完成对接,您只需要联系阿里云的合作伙伴,合作伙伴将负责从本地IDC机房到其接入点机房的物理专线部署。此方案合作伙伴与阿里云之间的连接采用多租户共享模式,适用于带宽需求较小,安全性和可靠性要求一般的中小型企业客户。

  • 高速通道高速通道(Express Connect)是一项连接企业数据中心与阿里云的网络服务,可以在企业数据中心与云上网络之间建立高速、稳定且安全的私网通信通道。高速通道的数据传输过程具有可信性和可控性,能够有效提升网络通信的质量和安全性。

  • VBR阿里云基于软件定义网络(SDN)架构下的三层Overlay技术和交换机虚拟化技术,将物理专线的接入端口进行隔离,并抽象为边界路由器(Virtual Border Router,简称VBR)。VBR是客户终端设备(CPE)与专有网络(VPC)之间的路由器,作为数据从VPC转发至本地数据中心IDC的桥梁。

  • 专线网关ECR专线网关ECR(Express Connect Router)是全球混合云专线组网的重要转发服务组件,提供全球范围内的专线网络互通、全动态路由组网以及统一路由发布管理等功能。例如,通过为专线网关ECR添加VBR,并将ECR绑定至转发路由器TR实例,可以实现本地IDC与云上资源之间的互访。

  • 云企业网云企业网CEN(Cloud Enterprise Network)是建立在阿里云私有全球网络上的高可用网络。云企业网通过转发路由器TR(Transit Router)在跨地域专有网络之间,专有网络VPC与本地数据中心IDC之间搭建私网通信通道,构建了一张灵活、可靠且大规模的企业级云上网络

  • 专有网络专有网络VPC(Virtual Private Cloud)是用户在阿里云平台上创建的自定义私有网络,。不同的专有网络之间实现二层逻辑隔离,用户可以在其创建的专有网络内创建和管理云产品实例,例如ECS、SLB、RDS等。

设计原则

为了实现混合云/多云网络的私网互通,可以使用物理专线、阿里云高速通道(ECR、VBR组件)、云企业网等产品建立大带宽、低时延、安全稳定的私网连接。

高速通道提供1Gbps、10Gbps、40Gbps以及100Gbps带宽的物理专线端口。同时,阿里云合作伙伴通过与阿里云专线接入点的预连接,提供50Mbps至100Gbps不同规格的共享专线端口。阿里云高速通道产品在全球范围内提供超过100个专线接入点,在构建混合云/多云互连网络时,高可靠性是良好架构的关键。因此阿里云建议IDC在接入阿里云专线接入点时,优先选择不同的专线接入点进行接入,以实现机房级容灾能力。此外,在专线带宽规划过程中,应根据实际业务情况确保足够的专线带宽,以防止故障切换时专线负载饱和,从而影响业务运行。

结合以上信息,阿里云推荐的最佳混合云/多云网络连接架构如下图所示:

image

该架构的设计原则如下:

  • 稳定性:专线承载的流量均为企业内部的业务流量,因此混合云/多云链路的稳定性至关重要。一旦链路中断,云上与云下、云间的业务互访将不可达,从而影响业务间的交互,甚至可能出现核心业务不可用等严重问题,对业务产生较大的影响。因此混合云/多云网络的稳定性是企业网络架构设计的重中之重。

  • 弹性:企业在不同阶段的业务规模或者处于不同的上云阶段,对混合云/多云链路的带宽需求也不同。在架构设计时,需具备根据客户业务需求灵活扩缩容能力,以帮助客户更平滑的上云,更高效的利用云资源,充分发挥公共云的弹性、按需优势,降低使用成本。

  • 安全性:混合云/多云架构涉及不同网络域之间的互通,且企业内部存在不同安全等级的业务,特别是对重要业务的访问,通常需要遵循安全可控及最小权限按需互通原则,以防止企业内部数据泄露和滥用,满足企业内部的数据安全要求。



设计关键点

稳定

专线带宽的可靠性设计

高速通道单实例提供50Mbps至100Gbps的带宽连接(若存在更高的带宽需求,可通过链路聚合方式实现扩容),您需要根据业务需求,确保故障切换时具备足够的带宽以承载切换后的流量。同时在此过程中可以使用云监控的告警服务对专线配额进行管理,以防止流量超限导致的丢包,从而影响业务,请参考:配置监控报警

专线链路的可靠性设计

在混合云或多云网络使用过程中,通常可能会因为网络维护等原因,需要临时关闭其中的部分连接。因此,在此之前需要根据业务需求选择不同的高可靠组网模式:物理链路级的高可靠模式选择

从稳定性角度考虑,建议优先选择双专线双接入点方式构建混合云/多云网络。同时,建议在VBR与IDC/多云之间尽量采用BGP动态路由协议而非静态路由,以便线路故障时可以自动切换。在专线多链路情况下,阿里云提供多种专线冗余方案实现业务的高可靠保障:

当然,除了物理专线级的高可靠方案,阿里云也支持物理专线联合VPN实现高可靠方案,请参考:物理专线联合VPN实现主备链路方案。当预算有限时,可以考虑使用VPN(IPsec隧道)备份专线,由于IPsec隧道带宽容量限制,建议优先考虑备份关键业务。另外,建议在IPSec隧道中启用BGP动态路由协议以便于监测IPSec隧道的可用性并实现路由的自动收敛。

故障演练

高速通道故障演练功能是一种模拟故障场景的工具。模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,可以测试和验证IDC与阿里云组建的混合云组网的可靠性。请参考:故障演练。

性能&弹性

专线规格

  • 独享专线:1 Gbps及以下,10 Gbps,40Gbps,100Gbps。

  • 共享专线:50 Mbps,100 Mbps,200 Mbps,300 Mbps,400 Mbps,500 Mbps,1 Gbps,2 Gbps,5 Gbps,8 Gbps,10 Gbps,20 Gbps,40 Gbps,50 Gbps,60 Gbps,80 Gbps,100 Gbps。

    说明

专线规格扩容

  • 独享专线变配:当业务所需的专线带宽超过单端口规格时,可以采用多端口三层聚合成ECMP方式实现带宽独享专线的变配,即将多条物理专线接入同一个接入点设备,并绑定到同一个VBR来实现物理专线的带宽扩容。请参考:通过ECMP链路聚合方式连接上云

  • 共享专线变配:共享专线支持按需调整规格,具体操作,请参考:变配管理—>共享专线实例变配

ECR连接转发路由器TR的规格

每个ECR连接TR的网络实例所支持的最大带宽为:华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)及新加坡地域为50 Gbps,其余地域为10 Gbps。如需更大的带宽,请联系商务经理以进行单独的带宽需求评估。

时延

单个地域提供多个不同地址位置的接入点,每个接入点与同一地域内不同可用区之间的网络延迟均小于5毫秒。当业务对云下与云上之间的网络延迟要求较高时,用户可以提交工单咨询距离云服务器所在可用区最近的接入点。

故障切换性能

高速通道通过BGP、BFD和快速倒换组的技术组合提供多种故障的快速切换方式。

  • 其中BGP路由自动收敛方式实现故障链路的秒级切换。

  • BGP+BFD可实现故障链路的毫秒级检测和秒级切换。

  • BGP+BFD+快速倒换组可实现故障链路的毫秒级切换。

BGP路由协议建议开启BFD、开启快速倒换组,加速路由收敛和缩短故障切换时间。

安全

网络分级安全防护

混合云网络边界对安全防护至关重要,通过安全组、网络访问控制列表(ACL)和TR多路由表等措施可以提供多级分段保护能力,从而有效保障混合云网络的安全性。

  • 安全组:安全组是一种虚拟防火墙,能够控制ECS实例的出入站流量。安全组的入方向规则用于控制ECS实例的入站流量,而出方向规则则用于管理ECS实例的出站流量。请参考:安全组应用案例

  • 网络ACL:网络ACL(Network Access Control List)是专有网络VPC中的网络访问控制功能。用户可以自定义设置网络ACL规则,并将其与交换机进行绑定,以实现对交换机中云服务器ECS实例流量的访问控制若需要对部分IDC访问云上VPC进行限制,请参考:限制本地数据中心与云上的互通

  • TR多路由表:通过多路由表的方式,可以实现VPC与IDC业务之间的灵活互通、隔离以及安全引流,从而满足云上云下的安全互通需求。请参考:使用企业版转发路由器实现流量安全互访

  • TR多路由表+云防火墙:基于TR多路由表,支持建立可信流量与不可信流量的不同路由表隔离网络流量,并通过云防火墙实现对流量的异常检测与防护

数据加密保护:

本地IDC通过物理专线与云上VPC实现私网通信,但该通信流量未经过加密处理。在无法满足安全要求较高的通信场景时,联合IPsec VPN可实现基于物理专线的私网流量加密通信。具体请参考:通过BGP路由方式实现私网流量加密通信

可观测

根据物理专线场景的问题分类,主要可分为以下几个观测内容:

  • 物理专线连通性观测:通过云监控的报警服务,可以监控物理专线的连接状态(可用或不可用)。请参考:物理端口监控及预警

  • 物理专线的流量使用情况观测:通过在高速通道控制台查看物理端口的出方向流量使用情况,可以监测不同时间段内的流量使用情况。请参考:出方向流量费

  • 物理专线带宽利用率观测:结合阿里云的云监控服务,高速通道所提供的VBR监控及预警功能能够实时探测VBR的实时状态和流入流出的速率,并支持根据配置的报警规则发送报警通知。专线下同一时间点的多个VBR的流入流出速率累加,即可评估整条物理专线的带宽利用率情况。请参考:边界路由器监控及预警

  • Top N流量观测:在使用云企业网组网架构下,通过网络智能服务(NIS)的混合云流量分析,能够以IP、端口、协议多维度展示通过TR的云服务器ECS与线下IDC间出入方向的流量。并展示在目标地域和目标时间段内云端端口统计Top流量、对端端口统计Top流量、协议统计Top流量数据。具体请参考:使用混合云流量分析

自服务

异常信息快速感知

  • 可开启云监控监控项的告警,自定义物理端口和VBR等告警阈值,即可及时感知相关异常,具体请参考:配置高速通道监控报警

  • 您可以直接订阅网络智能服务NIS事件中心提供的主动告警能力,帮助及时获知风险,查看可能受影响的资源,避免业务受损。具体请参考:NIS事件中心的高速通道章节。

  • 网络智能服务NIS默认提供了基于整体架构的网络诊断,覆盖稳定性、安全、性能、成本优化和卓越运营等检查项。通过巡检结果,可以检查混合云/多云网络是否存在风险,具体请参考:网络巡检

混合云/多云网络不可达

当遇到混合云/多云链路不可达时,可通过如下两种方式快速定位可能的问题原因。

  • 方式一:通过网络智能服务(NIS)进行路径分析,可以实现网络异常的自助定位。执行路径分析后,将自动生成VPC与IDC之间的虚拟网络路径逐跳的详细信息。当目的地不可达时,系统会检查阻塞的位置及其原因,并展示从源资源到目标资源的流量路径。如果自助服务无法修复问题,您可以提交工单向阿里云报告故障。

  • 方式二:在本地数据中心的网关设备上,需对物理专线的客户端侧IP与阿里云侧IP连通性进行测试,即验证此物理专线的直连IP是否能够ping通。如果不通,则需向运营商报告故障。同时,您可以提交工单向阿里云反馈问题,阿里云会检查专线接入情况。阿里云与用户的分工界面在阿里侧交换机的端口,接入设备正常,但端口不通则属于运营商线路中断,需要向运营商报告故障。

设计最佳实践

核心业务的混合云/多云互通场景

最佳实践核心架构:

  • 双线双接入点:申请两个接入点内的资源,建立两条专用线路连接,专用线路之间可以实现负载均衡(ECMP),并具备主备功能,确保接入的高可靠性和良好的性能。

  • 基于全动态路由和底层分布式设计的ECR网关:能够有效提升路由配置管理的效率,缩短专线到可用区(AZ)的时延,并增强地域接入TR专线的整体带宽能力。

  • TR实现了ECR与VPC之间的有效隔离及按需互通。

  • IDC与第三方云及阿里云之间采用BGP+BFD进行互联

    image

非核心业务的混合云/多云互通场景

最佳实践核心架构:

  • 专线+VPN主备:以专线作为主用链接,当专线发生故障时将自动切换至备用VPN,从而有效降低混合云与多云互通的成本。

  • 基于全动态路由和底层分布式设计的ECR网关:可以提升路由管理效率、缩短专线到可用区AZ的时延,提升地域接入TR专线的总带宽能力。

  • TR实现了ECR与VPC之间的有效隔离及按需互通。

  • IDC/三方云和阿里云之间采用BGP+BFD互联。

    image

应用场景介绍

  • 灵活且不限量的基础设施资源开通在企业快速发展的过程中传统IDC存在一次性投资大、利用率低、扩容周期长等弊端,无法满足企业迅速发展的需求。而云计算所具备的天然弹性、按需服务及大带宽等优势完美匹配企业灵活且不限量的业务诉求。通过专线构建的混合云网络,企业客户能够在保留原有IDC资源的基础上,按需、灵活地使用云端资源,从而促进企业的快速发展

  • 云端丰富的产品生态:随着企业大规模拥抱数字化和人工智能技术,特别是一些传统企业在信息化系统和能力方面相对闭塞无法快速支持企业转型。通过专线构建的混合云网络,帮助企业快速利用云上丰富的大数据、GPU、大模型、SaaS应用等相关产品,迅速实现企业的数字化、人工智能化转型。

  • 容灾:随着企业核心业务的大规模上云,部分企业出于对集团业务稳定性的考虑期望核心业务能够支持多云容灾部署,以提升整体业务的稳定性。阿里云提供的专线构建多云网络场景,能够帮助企业客户快速搭建安全、稳定的私有多云互连网络,从而进一步增强业务的稳定性。

Terraform参考

核心业务的混合云/多云互通场景

项目

说明

Terraform Module官网地址

核心业务的混合云/多云互通场景

Github 地址

核心业务的混合云/多云互通场景

示例地址

代码流程:

  1. 双物理专线&双接入点:申请2个接入点内的资源,建立2根物理专线连接,专线间可做负载均衡ECMP、可做主备,接入可靠性高、性能好。

  2. 基于全动态路由和底层分布式设计的ECR网关:可提升路由配置管理效率、缩短专线到可用区AZ的时延,并提升Region接入TR专线的总带宽能力。

  3. TR实现ECR和VPC间的有效隔离和按需互通。

  4. IDC/三方云和阿里云间采用BGP+BFD互联。

需要创建的实例如下:

  • 2个VPC

  • 4个交换机

  • 1个CEN

  • 1个TR

  • 1个ECR

  • 2个VBR

非核心业务的混合云/多云互通场景

项目

说明

Terraform Module官网地址

非核心业务的混合云/多云互通场景

Github 地址

非核心业务的混合云/多云互通场景

示例地址

示例地址

代码流程:

  1. 物理专线+VPN主备:物理专线为主用,当专线故障后切换到备用的VPN,节省混合云/多云互通成本。

  2. ECR网关:基于全动态路由和底层分布式设计,可以提升路由管理效率、缩短专线到可用区AZ的时延和提升Region接入TR专线的总带宽能力。

  3. TR实现ECR/VPN和VPC间的有效隔离和按需互通。

  4. IDC/三方云和阿里云间采用BGP+BFD互联。

需要创建的实例如下:

  • 2个VPC

  • 4个交换机

  • 1个CEN

  • 1个TR

  • 1个ECR

  • 1个VBR