1.服务概述
1.1.服务说明
随着云计算的不断发展、普及,越来越多的企业不断加深了对云的了解,并积极的落地云化改造,趋势已经从上云逐渐转变为用好云。面对云上甚至多云的复杂业务系统,运维人员经常会遇到技术栈繁杂、配置告警耗时长、设置指标告警遗漏、告警风暴以及故障定位耗时等一系列运维问题,最终可能导致严重的资损。
智能运维又称AIOps,即人工智能与运维相结合,可通过机器学习的防范来提升运维效率。它提供:时序指标异常诊断、根因分析、资源编排、故障自愈等能力。常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题等等。
AIOps解决方案专家服务主要围绕企业AIops的技术需求提供对应的解决方案支持及咨询服务,依托阿里巴巴多年AI能力沉淀,以及阿里云专家经验,通过算法对监控指标进行建模与实时智能分析,当业务异常发生时,实时进行告警关联分析与收敛,帮助用户减少故障影响时间(MTTR),提高用户业务稳定性。它融合“人工智能+大数据+云计算”能力,支撑全栈式IT运维管理,以场景为导向,以保障业务的连续性为目标,助力企业运维进入智能化时代、提升整体效能。
AIOps解决方案专家服务覆盖了包括时序趋势预测,风险异常巡检,智能诊断AI监测,智能根因推荐等多个能力。着力解决客户运维体系分散,运维手段传统,运维效率低下,资源利用率低等问题,打通底层基础设施到上层应用的全栈监控和运维操作,同时具有多场景联动的智能运维能力,实现机器运维机器的目标。具体项目也可与甲方实际需求进行适当调整。
2.服务范围
2.1.咨询版服务范围
一个咨询包包含连续10个工作日的AIOps解决方案设计服务,服务方式为远程。服务内容如下:
业务架构调研
以调研表、访谈等多种方式快速调研和分析应用技术栈现状,资源使用情况,AIOps可行性进行评估。确定业务系统数量、优先级和策略。基于评估的结果,给出云上技术选型建议。
智能故障发现解决方案
基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障客户业务稳定性。
定制化业务风险巡检方案
基于阿里云业务资源和技术能力,为客户定制化设计业务风险巡检方案。包含:定制化业务风险巡检能力架构,以及基于架构的具体业务风险场景实现方案。
本服务不包含:
方案设计主要集中在技术组件层面,不深入到业务做详细分析,不按照每个系统单独设计应用迁移方案。
咨询服务是以客户当前系统在阿里云上为基础的技术方案设计和服务,不负责客户全局的云化架构咨询,如此类需求请单独购买云化架构咨询服务,不负责代码开发与诊断。
甲方不应限制服务方式,乙方按照项目需要通过现场或远程方式进行详细调研以及咨询方案设计,并产出最终结果。
乙方不负责提供除阿里云官方文档、智能故障发现解决方案、定制化业务风险巡检方案设计之外的任何技术文档。
乙方不负责甲方业务系统规划、架构设计、应用过程中的任何实施与维护责任。
乙方不负责非阿里云平台以外(第三方软件、应用系统)问题处理、技术的支持和答疑工作。
方案完成之后的具体实施等工作不在咨询服务范围之内。
2.2.基础版服务范围
一个基础包包含连续10个工作日的AIOps解决方案协助实施服务,服务方式为远程,但是乙方会结合项目需求,提供不超过1次,每次不超过2人天的现场支持。
基于咨询服务的结果,支持客户选定AIOps方案工作,工作内容具体包含:
协助开通云资源、云账号、完成智能故障发现解决方案、定制化业务风险巡检方案
提供技术支持、方案实施中关于方案本身遇到的问题排查与解决方案
协助进行应用接入工作,帮助客户实现应用快速接入AIOps解决方案产品中
本服务不包含:
本服务不承诺提供任何交付物,以服务周期为期限,服务时间到期则服务终止
乙方服务过程中不负责甲方应用的部署、应用代码的改造、数据代码改造、数据迁移等具体的实施工作,具体的实施工作由甲方执行,在实施过程中乙方只负责提供技术支持和指导,并协助甲方解决阿里云产品使用相关的问题
乙方不为具体进度负责,由甲方原因导致的进度不符合预期,乙方不承担延期责任
2.3.标准版服务范围
一个标准包包含连续10个工作日的协助实施服务,服务方式为现场。
基于咨询服务的结果,支持客户选定AIOps方案工作,工作内容具体包含:
协助开通云资源、云账号、完成客户智能故障发现解决方案、定制化业务风险巡检方案
提供技术支持、方案实施中关于方案本身遇到的问题排查与解决方案
协助进行应用接入工作,帮助客户实现应用快速接入AIOps方案产品中
可选单独购买线下输出平台和可视化平台,助力客户本地化部署
本服务不包含:
本服务不承诺提供任何交付物,以服务周期为期限,服务时间到期则服务终止
乙方服务过程中不负责甲方应用的部署、应用代码的改造、数据代码改造、数据迁移等具体的实施工作,具体的实施工作由甲方执行,在实施过程中乙方只负责提供技术支持和指导,并协助甲方解决阿里云产品使用相关的问题
乙方不为具体进度负责,由甲方原因导致的进度不符合预期,乙方不承担延期责任
3.前提条件
甲方应提前至少15个工作日申请该服务,以便于阿里云评估甲方业务目标及时间计划可行,确认是否承接该服务申请。
甲方应及时向乙方提供所有需要的合理的文档、信息、数据、图表以及必要的系统权限、远程访问通道以使乙方可以提供服务。且所有这些资料将受到本协议项下的保密条款的约束。甲方同意向乙方已披露的或将要披露的所有信息是真实、准确并且不会产生误导。
本项目提供的咨询服务,乙方的办公地点不受项目约束,服务的提供方式主要以:电话、钉钉、邮件等方式。
本项目交付过程中,实施主体为甲方,乙方主要提供方案设计以及实施过程中的问题处理,具体的应用部署和测试动作需要由甲方进行。
双方在项目实施期间采用双方同意的通讯方式,由双方的项目经理负责传递本项目所需的书面信息,可选择的通讯方式包括:钉钉、互联网、电子邮件等。
所有项目交付物为中文(简体),工作语言为中文。所有交付作品采用MicrosoftOffice(包括PowerPoint,Word,Excel,Visio)格式,并以电子拷贝方式提交。
甲方与乙方应须按双方事先达成一致的工作计划、人员资源计划与书面确定的工作起止日期投入项目工作。如遇到甲方相关业务系统迭代延期上线,相关项目进度将会产生顺延,乙方对此不承担责任。
任何一方均不对本项目下的特殊、附带、或间接损害或后果性经济损害(包括利润或节省金额损失)负责,即便该方已被告知该等损害赔偿的可能性。
客户作为运维主体,需进行自身业务相关的运维工作。
4,分工边界
4.1.客户与阿里云
双方商定并确认具体业务目标及范围。
合同签订完毕,完成付费。
4.2.各阶段工作的双方职责
根据项目计划的阶段任务工作,双方在不同阶段需要承担不同的分工以顺利推进项目进行。
项目阶段 | 甲方 | 乙方 |
项目准备阶段 | 1.指定一名具备合适技能和经验的项目经理作为与乙方沟通的主要联系人,代表甲方直接负责项目实施的计划、协调、监督与控制以及升级问题与风险,同时全权代表甲方在本项目的各个方面做出决策 2.项目经理应协同乙方人员针对项目准备阶段的所有事项(见本工作说明书《3 前提条件》)进行确认 3.办公环境准备与人员出入许可权限批准 4.管理甲方项目组相关人员且和各阶段需投入人员进行沟通交流并取得投入项目的承诺与时间 5.管理甲方项目组相关人员 | 1.指派一名有经验的项目经理执行项目管理,并引入、管理乙方项目组人员,与甲方项目经理沟通 2.针对项目准备阶段的所有事项(见本工作说明书《3 前提条件》)提出方案与计划与甲方项目经理进行确认并书面记录在案 |
现状调研阶段 | 1.根据项目计划与访谈计划,组织关键用户参与调研访谈 2.根据乙方调研需求提供现有业务概况,如系统、应用、数据、组织结构、人员分工等作为乙方评估调研评估输入 3.确认乙方的AIOps策略与风险控制策略 4.指定验收人负责审核乙方交付物并提供反馈与确认验收 | 1.提供访谈计划并根据访谈结果评估现有基础设施、应用架构、应用依赖关系 2.根据评估结果提出AIOps策略与风险控制策略,并与甲方达成协议 3.根据甲方验收反馈确保最终交付物符合验收标准 |
方案设计阶段 | 1.配合乙方进行AIOps方案设计 2.相关方案的整体设计 3.指定验收人负责审核乙方交付物并提供反馈与确认验收 | 1.根据服务范围,结合客户具体场景进行AIOps方案设计 2.根据甲方验收反馈确保最终交付物符合验收标准 |
方案协助实施阶段 | 1.协助乙方验证方案的可行性,为方案验证提供必要的业务输入、资源、环境等, 并配合进行具体的代码改造和实施工作 2.指定验收人负责审核乙方交付物并提供反馈与确认验收 | 1.协助并指导甲方开通或购买云资源以及完成基础架构搭建与配置 2.提供AIOps解决方案的实施支持,问题排查与解决方案 3.按照AIOps解决方案搭建验证Demo 4.按照AIOps标准提供售后培训服务 |
备注:咨询版本包含准备阶段、调研阶段、设计阶段。基础/标准版本包含准备阶段、调研阶段、设计阶段、实施阶段。
5.服务目录
服务内容:AIOps解决方案专家服务针对客户的业务目标,包含以下服务:
阶段名称 | 服务目录 | 咨询服务 | 服务基础版 | 服务标准版 |
现状调研 | 系统调研评估 | 支持 | ||
方案沟通与计划 | 支持 | |||
方案设计 | 智能故障发现解决方案 | 支持 | ||
定制化业务风险巡检方案 | 支持 | |||
AIOps方案实施支持 | 智能故障发现解决方案实施支持 | 支持 | 支持 | |
定制化业务风险巡检方案实施支持 | 支持 | 支持 | ||
AIOps方案现场部署 | 智能故障发现解决方案线下输出 | 支持 | ||
定制化业务风险巡检方案线下输出 | 支持 |
备注:服务基础版和标准版的服务内容基本一致,区别在于基础版为远程支持,标准版为现场支持以及可以单独购买线下输出方案。
5.1.服务内容
AIOps解决方案专家服务 | |||
序号 | 服务内容大类 | 服务描述 | 交付物 |
1 | 业务架构调研 | 企业在使用云的过程中所使用的资源、业务现状和应用系统核心逻辑进行充分调研的服务。调研的服务范围包含:基础资源调研、业务现状调研、应用系统调研 | 《调研报告》 |
2 | 智能故障发现方案设计 | 基于业务数据、资源组维度建立业务组单元,将业务组单元指标通过智能AI算法进行实时分析,帮助企业快速发现故障,列出可疑根因事件,并根据故障定位算法,给出可疑程度排序。根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》 | 《智能故障发现设计方案》 |
3 | 定制化业务风险巡检方案设计 | 基于阿里云业务资源和技术能力,为企业定制化业务风险巡检能力架构设计,以及基于架构的具体业务风险场景实现方案。并提供2个电商业务应用风险巡检场景设计用于提升客户自定义风险场景实施能力。具体参考《10.2风险场景列表》 | 《定制化业务风险巡检设计方案》 |
AIOps解决方案基础版服务 | |||
序号 | 服务内容大类 | 服务描述 | 交付物 |
4 | 智能故障发现方案实施 | 基于咨询服务设计方案提供实施方案,协助企业实现应用快速接入AIOps方案产品中 | 《智能AI检测实施方案》 |
5 | 定制化业务风险巡检方案实施 | 基于咨询服务设计方案提供实施方案,协助企业实现应用快速接入AIOps方案产品中 | 《定制化业务风险巡检实施方案》 |
AIOps解决方案标准版服务 | |||
序号 | 服务内容大类 | 服务描述 | 交付物 |
6 | 智能故障发现现场实施 | 基于咨询服务提供实施方案,帮助企业实现应用快速接入AIOps方案产品中 | 《智能AI检测实施方案》 |
7 | 定制化业务风险巡检现场实施 | 基于咨询服务提供实施方案,帮助企业实现应用快速接入AIOps方案产品中 | 《定制化业务风险巡检实施方案》 |
6.服务SLA
AIOps解决方案咨询服务SLA包含:
提供AIOps解决方案咨询服务。
在服务期间内向客户提供支持群以及按需的现场保障。
按对应服务规格提供《定制化业务风险巡检方案》、《智能故障发现解决方案》等方案,具体交付物根据服务内容有所不同。
7.服务流程
申请时间限制:客户须至少在服务开始前15天提出服务购买申请。
AIOps解决方案咨询服务流程介绍:
AIOps解决方案实施服务流程介绍:
8.验收标准
8.1.验收分项清单
编号 | 交付阶段 | 交付物 | 交付物类型 |
1 | 项目调研阶段 | 《项目调研报告》 | 文档 |
2 | 方案设计阶段 | 《智能故障发现解决方案》 | 支持 |
3 | 《定制化业务风险巡检方案》 | 文档 | |
4 | 方案实施阶段 | 《智能故障发现解决实施方案》 | 文档 |
5 | 《定制化业务风险巡检实施方案》 | 文档 |
8.2.验收标准
验收标准
方案设计达到客户要求,线上签署确认,具体方案见《8.1 验收分项清单》
乙方在项目过程中提供智能故障发现解决方案和定制化业务风险巡检方案,设计方案得到甲方验收后,完成第一阶段工作。基于此认可方案开展第二阶段实施,乙方提供协助实施方案并提供技术支持,协助甲方根据方案实施。协助实施完成后客户应在5个工作日内确认方案,线上签署《服务验收报告》后完成验收
8.3.验收计划
根据《8.1验收分项清单》所列示各阶段的交付内容与交付物,本项目将按照以下验收计划进行项目验收,甲方同意根据此验收计划对乙方的交付物进行验收。
编号 | 验收里程碑 | 验收内容 | 验收完成标志 |
1 | AIOps解决方案设计与验证完成 | 项目准备、调研评估、设计阶段所有交付物 | 甲方在线确认《验收报告》 |
2 | AIOps解决方案实施完成 | 实施阶段所有交付物 | 甲方在线确认《验收报告》 |
9.完成标志
客户验收完成。
10.附录
10.1.智能算法列表
类型 | 算法名称 | 算法逻辑 |
异常诊断类算法 | One-Class SVM | 基于历史批量数据的做算法学习并进行异常诊断 |
异常诊断类算法 | 孤立森林 | 基于历史批量数据的做算法学习并进行异常诊断 |
异常诊断类算法 | Robust Covariance | 基于历史批量数据的做算法学习并进行异常诊断 |
异常诊断类算法 | LocalOutlierFactor | 基于历史批量数据的做算法学习并进行异常诊断 |
异常诊断类算法 | AutoEncoder | 基于历史批量数据的做算法学习并进行异常诊断 |
根因分析算法 | Random Forest和PCA | 根因分析 |
时序异常诊断算法 | K-Sigma | 根据实时的时序数据进行异常诊断 |
时序异常诊断算法 | ARIMA | 根据实时的时序数据进行异常诊断 |
10.2.业务风险场景列表
场景类 | 场景名称 | 描述 |
电商类 | 创建履约单 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 商品详情页 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 购物车加购 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 购物车渲染 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 下单页渲染 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 提交支付 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 支付结果 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 收银台渲染 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
电商类 | 创建履约单 | 通过场景日志,计算场景指标,快速实现定制化业务场景巡检 |
10.3.方案预期结果
智能故障发现解决方案
方案包括多指标多产品的链路性根因分析,本方案提供8种实时异常检测和根因分析算法场景,同时保障算法的通用性。
定制化业务风险方案
方案包括各业务场景定制化巡检,本方案提供场景架构方案并提供2个电商业务应用风险巡检场景用于提升客户自定义风险场景实施能力。