1.服務概述
1.1.服務說明
隨著雲端運算的不斷髮展、普及,越來越多的企業不斷加深了對雲的瞭解,並積極的落地雲化改造,趨勢已經從上雲逐漸轉變為用好雲。面對雲上甚至多雲的複雜業務系統,營運人員經常會遇到技術棧繁雜、配置警示耗時間長度、設定指標警示遺漏、警示風暴以及故障定位耗時等一系列營運問題,最終可能導致嚴重的資損。
智能營運又稱AIOps,即人工智慧與營運相結合,可通過機器學習的防範來提升營運效率。它提供:時序指標異常診斷、根因分析、Resource Orchestration Service、故障自愈等能力。常見的AIOps應用路徑為:對監控的各種關鍵效能指標(KPI)行即時異常檢測;對多維指標進行根源分析,快速下鑽到異常維度和元素;基於應用拓撲和即時Trace,實現根因定位;結合CMDB、關聯等、構建異常根因上下文,協助快速修複問題等等。
AIOps解決方案專家服務主要圍繞企業AIops的技術需求提供對應的解決方案支援及諮詢服務,依託阿里巴巴多年AI能力沉澱,以及阿里雲專家經驗,通過演算法對監控指標進行建模與即時智能分析,當業務異常發生時,即時進行警示關聯分析與收斂,協助使用者減少故障影響時間(MTTR),提高使用者業務穩定性。它融合“人工智慧+巨量資料+雲端運算”能力,支撐全棧式IT營運管理,以情境為導向,以保障業務的連續性為目標,助力企業營運進入智能化時代、提升整體效能。
AIOps解決方案專家服務覆蓋了包括時序趨勢預測,風險異常巡檢,智能診斷AI監測,智能根因推薦等多個能力。著力解決客戶營運體系分散,營運手段傳統,營運效率低下,資源使用率低等問題,打通底層基礎設施到上層應用的全棧監控和營運操作,同時具有多情境聯動的智能營運能力,實現機器營運機器的目標。具體專案也可與甲方實際需求進行適當調整。
2.服務涵蓋範圍
2.1.諮詢版服務涵蓋範圍
一個諮詢包包含連續10個工作日的AIOps解決方案設計服務,服務方式為遠程。服務內容如下:
業務架構調研
以調研表、訪談等多種方式快速調研和分析應用技術棧現狀,資源使用方式,AIOps可行性進行評估。確定業務系統數量、優先順序和策略。基於評估的結果,給出雲上技術選型建議。
智能故障發現解決方案
基於調研與評估的結果,為客戶設計智能故障發現解決方案,包含:多帳號統一監控資料接入,並根據應用分組為客戶設計AI演算法能力用於即時故障發現,並根據分析結果智能定位根因,提供即時異常檢測的穩定性方案,保障客戶業務穩定性。
定製化業務風險巡檢方案
基於阿里雲業務資源和技術能力,為客戶定製化設計業務風險巡檢方案。包含:定製化業務風險巡檢能力架構,以及基於架構的具體業務風險情境實現方案。
本服務不包含:
方案設計主要集中在技術組件層面,不深入到業務做詳細分析,不按照每個系統單獨設計應用遷移方案。
諮詢服務是以客戶當前系統在阿里雲上為基礎的技術方案設計和服務,不負責客戶全域的雲化架構諮詢,如此類需求請單獨購買雲化架構諮詢服務,不負責代碼開發與診斷。
甲方不應限制服務方式,乙方按照專案需要通過現場或遠程方式進行詳細調研以及諮詢方案設計,併產出最終結果。
乙方不負責提供除阿里雲官方文檔、智能故障發現解決方案、定製化業務風險巡檢方案設計之外的任何技術文檔。
乙方不負責甲方業務系統規劃、架構設計、應用過程中的任何實施與維護責任。
乙方不負責非阿里雲平台以外(第三方軟體、應用系統)問題處理、技術的支援和答疑工作。
方案完成之後的具體實施等工作不在諮詢服務涵蓋範圍之內。
2.2.基礎版服務涵蓋範圍
一個基礎包包含連續10個工作日的AIOps解決方案協助實施服務,服務方式為遠程,但是乙方會結合專案需求,提供不超過1次,每次不超過2人天的現場支援。
基於諮詢服務的結果,支援客戶選定AIOps方案工作,工作內容具體包含:
協助開通雲資源、雲帳號、完成智能故障發現解決方案、定製化業務風險巡檢方案
提供支援人員、方案實施中關於方案本身遇到的問題排查與解決方案
協助進行應用接入工作,協助客戶實現應用快速接入AIOps解決方案產品中
本服務不包含:
本服務不承諾提供任何交付物,以服務周期為期限,服務時間到期則服務終止
乙方服務過程中不負責甲方應用的部署、應用代碼的改造、資料代碼改造、資料移轉等具體的實施工作,具體的實施工作由甲方執行,在實施過程中乙方只負責提供支援人員和指導,並協助甲方解決阿里雲產品使用相關的問題
乙方不為具體進度負責,由甲方原因導致的進度不符合預期,乙方不承擔延期責任
2.3.標準版服務涵蓋範圍
一個標準包包含連續10個工作日的協助實施服務,服務方式為現場。
基於諮詢服務的結果,支援客戶選定AIOps方案工作,工作內容具體包含:
協助開通雲資源、雲帳號、完成客戶智能故障發現解決方案、定製化業務風險巡檢方案
提供支援人員、方案實施中關於方案本身遇到的問題排查與解決方案
協助進行應用接入工作,協助客戶實現應用快速接入AIOps方案產品中
可選單獨購買線下輸出平台和可視化平台,助力客戶本地化部署
本服務不包含:
本服務不承諾提供任何交付物,以服務周期為期限,服務時間到期則服務終止
乙方服務過程中不負責甲方應用的部署、應用代碼的改造、資料代碼改造、資料移轉等具體的實施工作,具體的實施工作由甲方執行,在實施過程中乙方只負責提供支援人員和指導,並協助甲方解決阿里雲產品使用相關的問題
乙方不為具體進度負責,由甲方原因導致的進度不符合預期,乙方不承擔延期責任
3.前提條件
甲方應提前至少15個工作日申請該服務,以便於阿里雲評估甲方營運目標及時間計劃可行,確認是否承接該服務申請。
甲方應及時向乙方提供所有需要的合理的文檔、資訊、資料、圖表以及必要的系統許可權、遠端存取通道以使乙方可以提供服務。且所有這些資料將受到本協議項下的保密條款的約束。甲方同意向乙方已披露的或將要披露的所有資訊是真實、準確並且不會產生誤導。
本專案提供的諮詢服務,乙方的辦公地點不受專案約束,服務的提供方式主要以:電話、DingTalk、郵件等方式。
本專案交付過程中,實施主體為甲方,乙方主要提供方案設計以及實施過程中的問題處理,具體的應用部署和測試動作需要由甲方進行。
雙方在專案實施期間採用雙方同意的通訊方式,由雙方的專案經理負責傳遞本專案所需的書面資訊,可選擇的通訊方式包括:DingTalk、互連網、電子郵件等。
所有專案交付物為中文(簡體),工作語言為中文。所有交付作品採用MicrosoftOffice(包括PowerPoint,Word,Excel,Visio)格式,並以電子拷貝方式提交。
甲方與乙方應須按雙方事先達成一致的工作計劃、人員資源計劃與書面確定的工作起止日期投入專案工作。如遇到甲方相關業務系統迭代延期上線,相關項目進度將會產生順延,乙方對此不承擔責任。
任何一方均不對本專案下的特殊、附帶、或間接損害或後果性經濟損害(包括利潤或節省金額損失)負責,即便該方已被告知該等損害賠償的可能性。
客戶作為營運主體,需進行自身業務相關的營運工作。
4,分工邊界
4.1.客戶與阿里雲
雙方商定並確認具體營運目標及範圍。
合約簽訂完畢,完成付費。
4.2.各階段工作的雙方職責
根據專案計劃的階段任務工作,雙方在不同階段需要承擔不同的分工以順利推進專案進行。
專案階段 | 甲方 | 乙方 |
專案準備階段 | 1.指定一名具備合適技能和經驗的專案經理作為與乙方溝通的主要連絡人,代表甲方直接負責專案實施的計劃、協調、監督與控制以及升級問題與風險,同時全權代表甲方在本專案的各個方面做出決策 2.專案經理應協同乙方人員針對專案準備階段的所有事項(見本工作說明書《3 前提條件》)進行確認 3.辦公環境準備與人員出入許可許可權批准 4.管理甲方專案組相關人員且和各階段需投入人員進行溝通交流並取得投入專案的承諾與時間 5.管理甲方專案組相關人員 | 1.指派一名有經驗的專案經理執行專案管理,並引入、管理乙方專案組人員,與甲方專案經理溝通 2.針對專案準備階段的所有事項(見本工作說明書《3 前提條件》)提出方案與計劃與甲方專案經理進行確認並書面記錄在案 |
現狀調研階段 | 1.根據專案計劃與訪談計劃,組織關鍵使用者參與調研訪談 2.根據乙方調研需求提供現有業務概況,如系統、應用、資料、組織圖、人員分工等作為乙方評估調研評估輸入 3.確認乙方的AIOps策略與風險控制策略 4.指定驗收人負責審核乙方交付物並提供反饋與確認驗收 | 1.提供訪談計劃並根據訪談結果評估現有基礎設施、應用架構、應用依賴關係 2.根據評估結果提出AIOps策略與風險控制策略,並與甲方達成協議 3.根據甲方驗收反饋確保最終交付物符合驗收標準 |
方案設計階段 | 1.配合乙方進行AIOps方案設計 2.相關方案的整體設計 3.指定驗收人負責審核乙方交付物並提供反饋與確認驗收 | 1.根據服務涵蓋範圍,結合客戶具體情境進行AIOps方案設計 2.根據甲方驗收反饋確保最終交付物符合驗收標準 |
方案協助實施階段 | 1.協助乙方驗證方案的可行性,為方案驗證提供必要的業務輸入、資源、環境等, 並配合進行具體的代碼改造和實施工作 2.指定驗收人負責審核乙方交付物並提供反饋與確認驗收 | 1.協助並指導甲方開通或購買雲資源以及完成基礎架構搭建與配置 2.提供AIOps解決方案的實施支援,問題排查與解決方案 3.按照AIOps解決方案搭建驗證Demo 4.按照AIOps標準提供售後培訓服務 |
備忘:諮詢版本包含準備階段、調研階段、設計階段。基礎/標準版本包含準備階段、調研階段、設計階段、實施階段。
5.服務類別目錄
服務內容:AIOps解決方案專家服務針對客戶的營運目標,包含以下服務:
階段名稱 | 服務類別目錄 | 諮詢服務 | 服務基礎版 | 服務標準版 |
現狀調研 | 系統調研評估 | 支援 | ||
方案溝通與計劃 | 支援 | |||
方案設計 | 智能故障發現解決方案 | 支援 | ||
定製化業務風險巡檢方案 | 支援 | |||
AIOps方案實施支援 | 智能故障發現解決方案實施支援 | 支援 | 支援 | |
定製化業務風險巡檢方案實施支援 | 支援 | 支援 | ||
AIOps方案現場部署 | 智能故障發現解決方案線下輸出 | 支援 | ||
定製化業務風險巡檢方案線下輸出 | 支援 |
備忘:服務基礎版和標準版的服務內容基本一致,區別在於基礎版為遠程支援,標準版為現場支援以及可以單獨購買線下輸出方案。
5.1.服務內容
AIOps解決方案專家服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
1 | 業務架構調研 | 企業在使用雲的過程中所使用的資源、業務現狀和應用系統核心邏輯進行充分調研的服務。調研的服務涵蓋範圍包含:基礎資源調研、業務現狀調研、應用系統調研 | 《調研報告》 |
2 | 智能故障發現方案設計 | 基於業務資料、資源群組維度建立業務組單元,將業務組單元指標通過智能AI演算法進行即時分析,協助企業快速發現故障,列出可疑根因事件,並根據故障定位演算法,給出可疑程度排序。根據智能AI演算法和阿里多年積累的AIOps經驗,在故障發生後,提供自動化解決方案。在方案設計中我們提供包括時序預測和根因分析、歷史資料預測的3大類演算法情境的設計,更多具體演算法詳見《10.1演算法列表》 | 《智能故障發現設計方案》 |
3 | 定製化業務風險巡檢方案設計 | 基於阿里雲業務資源和技術能力,為企業定製化業務風險巡檢能力架構設計,以及基於架構的具體業務風險情境實現方案。並提供2個電商業務應用風險巡檢情境設計用於提升客戶自訂風險情境實施能力。具體參考《10.2風險情境列表》 | 《定製化業務風險巡檢設計方案》 |
AIOps解決方案基礎版服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
4 | 智能故障發現方案實施 | 基於諮詢服務設計方案提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《智能AI檢測實施方案》 |
5 | 定製化業務風險巡檢方案實施 | 基於諮詢服務設計方案提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《定製化業務風險巡檢實施方案》 |
AIOps解決方案標準版服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
6 | 智能故障發現現場實施 | 基於諮詢服務提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《智能AI檢測實施方案》 |
7 | 定製化業務風險巡檢現場實施 | 基於諮詢服務提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《定製化業務風險巡檢實施方案》 |
6.服務SLA
AIOps解決方案諮詢服務SLA包含:
提供AIOps解決方案諮詢服務。
在服務期間內向客戶提供支援群以及按需的現場保障。
按對應服務規格提供《定製化業務風險巡檢方案》、《智能故障發現解決方案》等方案,具體交付物根據服務內容有所不同。
7.服務流程
申請時間限制:客戶須至少在服務開始前15天提出服務購買申請。
AIOps解決方案諮詢服務流程介紹:
AIOps解決方案實施服務流程介紹:
8.驗收標準
8.1.驗收分項清單
編號 | 交付階段 | 交付物 | 交付物類型 |
1 | 專案調研階段 | 《專案調研報告》 | 文檔 |
2 | 方案設計階段 | 《智能故障發現解決方案》 | 支援 |
3 | 《定製化業務風險巡檢方案》 | 文檔 | |
4 | 方案實施階段 | 《智能故障發現解決實施方案》 | 文檔 |
5 | 《定製化業務風險巡檢實施方案》 | 文檔 |
8.2.驗收標準
驗收標準
方案設計達到客戶要求,線上籤署確認,具體方案見《8.1 驗收分項清單》
乙方在專案過程中提供智能故障發現解決方案和定製化業務風險巡檢方案,設計方案得到甲方驗收後,完成第一階段工作。基於此認可方案開展第二階段實施,乙方提供協助實施方案並提供支援人員,協助甲方根據方案實施。協助實施完成後客戶應在5個工作日內確認方案,線上籤署《服務驗收報告》後完成驗收
8.3.驗收計劃
根據《8.1驗收分項清單》所列示各階段的交付內容與交付物,本專案將按照以下驗收計划進行專案驗收,甲方同意根據此驗收計劃對乙方的交付物進行驗收。
編號 | 驗收裡程碑 | 驗收內容 | 驗收完成標誌 |
1 | AIOps解決方案設計與驗證完成 | 專案準備、調研評估、設計階段所有交付物 | 甲方線上確認《驗收報告》 |
2 | AIOps解決方案實施完成 | 實施階段所有交付物 | 甲方線上確認《驗收報告》 |
9.完成標誌
客戶驗收完成。
10.附錄
10.1.智能演算法列表
類型 | 演算法名稱 | 演算法邏輯 |
異常診斷類演算法 | One-Class SVM | 基於歷史批量資料的做演算法學習並進行異常診斷 |
異常診斷類演算法 | 孤立森林 | 基於歷史批量資料的做演算法學習並進行異常診斷 |
異常診斷類演算法 | Robust Covariance | 基於歷史批量資料的做演算法學習並進行異常診斷 |
異常診斷類演算法 | LocalOutlierFactor | 基於歷史批量資料的做演算法學習並進行異常診斷 |
異常診斷類演算法 | AutoEncoder | 基於歷史批量資料的做演算法學習並進行異常診斷 |
根因分析演算法 | Random Forest和PCA | 根因分析 |
時序異常診斷演算法 | K-Sigma | 根據即時的時序資料進行異常診斷 |
時序異常診斷演算法 | ARIMA | 根據即時的時序資料進行異常診斷 |
10.2.業務風險情境列表
情境類 | 情境名稱 | 描述 |
電商類 | 建立履約單 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 商品詳情頁 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 購物車加購 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 購物車渲染 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 下單頁渲染 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 提交支付 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 支付結果 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 收銀台渲染 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
電商類 | 建立履約單 | 通過情境日誌,計算情境指標,快速實現定製化業務情境巡檢 |
10.3.方案預期結果
智能故障發現解決方案
方案包括多指標多產品的鏈路性根因分析,本方案提供8種即時異常檢測和根因分析演算法情境,同時保障演算法的通用性。
定製化業務風險方案
方案包括各業務情境定製化巡檢,本方案提供情境架構方案並提供2個電商業務應用風險巡檢情境用於提升客戶自訂風險情境實施能力。