全部產品
Search
文件中心

Container Service for Kubernetes:使用Kubernetes事件中心監控GPU異常

更新時間:Jun 19, 2024

本文介紹如何通過Kubernetes事件中心對GPU Xid錯誤進行監控警示,協助您即時瞭解和診斷NVIDIA驅動程式的錯誤報表。

前提條件

背景資訊

Xid訊息是來自NVIDIA驅動程式的錯誤報表,該報告會列印到作業系統的核心日誌或事件記錄中。Xid訊息表明發生了一般的GPU錯誤,通常是由於驅動程式對GPU的編程不正確或發送給GPU的命令損壞所致。這些訊息可能表示硬體問題、NVIDIA軟體問題或使用者應用程式問題。

GPU裝置在使用中,容易發生一些Xid錯誤,可以配合Kubernetes事件中心,對這些Xid錯誤進行監控警示,及時發現並定位故障原因。

操作步驟

  1. 進入Log ServiceK8s事件中心頁面。
    具體操作步驟,請參見建立並使用K8s事件中心
  2. K8s事件中心左側導覽列中,單擊目的地組群,然後單擊事件總覽
    事件總覽頁面查看GPU Xid警示統計資訊及Xid錯誤的詳細內容。
  3. 在目的地組群下拉式功能表中,單擊警示配置
  4. 單擊添加通知方式,在添加通知方式面板,配置通知方式,然後單擊確定
    可以根據需要選擇簡訊、郵件、DingTalk等接收通知,再自訂通知內容,下圖以簡訊為例。簡訊
  5. 通知方式配置完成後,在全部警示事件頁面右上方單擊修改,選擇K8s GPU Xid警示,並在K8s GPU Xid警示下拉框中選擇簡訊
  6. 全部警示事件頁面,單擊儲存
    觸發警示後,您會收到阿里雲發出的警示簡訊。