健康狀態監控
建議即時瞭解雲資源的健康狀態,方便在有任何異常的情況下,您能及時採取相應的處理。關於健康狀態的詳細資料,請參見阿里雲健康狀態首頁。
在阿里雲健康狀態頁面中,您可以即時查看阿里雲每個地區下雲端服務的狀態是否有異常,以及該服務異常狀態的RSS訂閱者式。
基礎CloudMonitor
PAI已接入阿里雲基礎CloudMonitor服務供您免費使用,可實現對雲資源和互連網應用的各項指標進行即時監控。支援對雲產品資源的運行狀態、Elastic Compute Service的資源使用狀態、網站網站、業務故障等問題進行即時監控。
該功能需要您手動開啟。相關操作,請參見雲產品監控。
一鍵開啟指定雲產品關鍵監控項
基礎CloudMonitor支援對PAI的多個關鍵監控項開啟一鍵警示,協助您高效、快速地建立雲產品的警示體系,並協助使您全面瞭解阿里雲資源的使用方式和業務健全狀態。詳細介紹,請參見開啟一鍵警示。
自訂監控項警示規則
您可通過自訂設定監控報表,快速收集自訂的監控指標資料。詳細介紹,請參見管理自訂監控大盤中的監控圖表。
支援對監控項設定警示規則,警示通知方式包括電話、簡訊、郵件、DingTalk機器人、阿里雲App通知。
支援警示黑名單功能,對某個監控指標屏蔽警示通知。詳細操作說明,請參見建立警示黑名單策略。
雲資源配置審計
PAI已接入阿里雲配置審計(Cloud Config)供您免費試用,為您提供統一的雲資源配置歷史追蹤、配置合規審計,協助您實現對雲上資源合規性的自主監控,確保您基礎設施的持續合規性。
資源配置檢測
配置審計可檢測當前阿里雲帳號和所有RAM使用者的操作記錄,且預設每隔10分鐘記錄資源配置的變更。
開啟等保2.0雲上預檢功能
配置審計解讀等保2.0法規條例,並對應實現為雲上資源配置的檢測。您可以一鍵開啟等保2.0雲上預檢功能,配置審計將持續為您監控資源的合規性。您還可以下載預檢報告,呈遞檢測機構報備。
審計資料即時查詢與分析
您可通過將雲資源的配置變更歷史和不合規事件數目據投遞到Log ServiceSLS的指定日誌庫中,實現通過Log ServiceSLS統一查詢和分析日誌資料。詳細介紹,請參見設定投遞資料到Log ServiceSLS。
雲資源Action Trail
PAI已接入阿里雲Action Trail(ActionTrail),可為您提供統一的雲資源動作記錄管理,記錄雲帳號下使用者登入及資源訪問操作,實現安全分析、入侵檢測、資源變更追蹤以及合規性審計。
Action Trail可記錄通過阿里雲控制台、OpenAPI、開發人員工具訪問和使用雲上產品和服務的日誌資料。具體支援的雲端服務審計事件,請參見審計事件概覽。
Action Trail預設為您追蹤並記錄最近90天的事件。如需儲存更長時間的日誌,則需要建立跟蹤,將產生的時間記錄到Log Service或Object Storage Service。詳細操作,請參見建立跟蹤。
當您將事件投遞到SLS或OSS後,可以通過SLS或OSS查詢或分析事件。詳細操作,請參見通過SLS或OSS控制台查詢事件。
如果需要跟蹤歷史事件,請提交工單申請開啟相關許可權。
工作空間事件中心
PAI提供了工作空間維度事件中心,您可以建立事件規則,以跟蹤和監控DLC任務或工作流程工作的狀態,或者基於AI資產管理-模型版本准入狀態變化觸發下遊事件。支援監控工作流程工作、DLC任務、模型事件來源,並通過DingTalk、語音、郵件等進行通知。詳情請參見:工作空間事件中心。
Tensorboard分析任務
您可以在Designer中啟動TensorBoard,並通過TensorBoard可視化介面更直觀的查看模型訓練結果分析報告。
Designer:使用TensorBoard查看分析報告。
DLC:Tensorboard。