本文介紹如何通過Kubernetes事件中心對GPU Xid錯誤進行監控警示,協助您即時瞭解和診斷NVIDIA驅動程式的錯誤報表。
前提條件
背景資訊
Xid訊息是來自NVIDIA驅動程式的錯誤報表,該報告會列印到作業系統的核心日誌或事件記錄中。Xid訊息表明發生了一般的GPU錯誤,通常是由於驅動程式對GPU的編程不正確或發送給GPU的命令損壞所致。這些訊息可能表示硬體問題、NVIDIA軟體問題或使用者應用程式問題。
GPU裝置在使用中,容易發生一些Xid錯誤,可以配合Kubernetes事件中心,對這些Xid錯誤進行監控警示,及時發現並定位故障原因。
操作步驟
- 進入Log ServiceK8s事件中心頁面。具體操作步驟,請參見建立並使用K8s事件中心。
- 在K8s事件中心左側導覽列中,單擊目的地組群,然後單擊事件總覽。在事件總覽頁面查看GPU Xid警示統計資訊及Xid錯誤的詳細內容。
- 在目的地組群下拉式功能表中,單擊警示配置。
- 單擊添加通知方式,在添加通知方式面板,配置通知方式,然後單擊確定。可以根據需要選擇簡訊、郵件、DingTalk等接收通知,再自訂通知內容,下圖以簡訊為例。
- 通知方式配置完成後,在全部警示事件頁面右上方單擊修改,選擇K8s GPU Xid警示,並在K8s GPU Xid警示下拉框中選擇簡訊。
- 在全部警示事件頁面,單擊儲存。觸發警示後,您會收到阿里雲發出的警示簡訊。