全部產品
Search
文件中心

Platform For AI:基礎設施安全

更新時間:Jul 13, 2024

可用性區域間故障隔離

可用性區域是指在同一地區內,電源和網路互相獨立的物理地區。

在同一地區內,可用性區域與可用性區域之間內網互連。各可用性區域之間可以實現故障隔離,即如果一個可用性區域出現故障,不會影響其他可用性區域的正常運行。每個地區完全獨立,不同地區的可用性區域完全隔離,但同一個地區內的可用性區域之間使用低時延鏈路相連。

彈性自動容錯

PAI提供基於AIMaster的容錯監控能力。AIMaster作為任務層級組件,當任務開啟容錯監控功能後,會拉起AIMaster執行個體,與任務其它執行個體一起運行,進行任務監控、容錯判斷、資源控制的作用。詳細請參見AIMaster:彈性自動容錯引擎

算力健康檢測

進行AI訓練時,DLC提供算力健康檢測能力,對分布式訓練任務的算力資源健康度與效能進行檢查。在建立DLC訓練任務時可以開啟該功能,健康檢測會對參與訓練的資源進行全面檢測,自動隔離故障節點,並觸發後台自動化營運流程,有效減少任務訓練初期遇到問題的可能性,提升訓練成功率。在檢測完成後,會給出有關GPU算力以及通訊效能的檢測報告,可以協助識別和定位可能導致任務訓練效能下降的問題元素,整體提升問題診斷的效率。詳細使用說明請參見SanityCheck:算力健康檢測

基礎設施監控

支援接入CloudMonitor,構建並鞏固您的安全防禦體系。相關介紹: