全部產品
Search
文件中心

Platform For AI:AI資產血緣服務

更新時間:Dec 18, 2024

AI資產血緣服務是一項關鍵技術工具,專註於最佳化企業AI資產管理。通過詳細追蹤和理解資料與模型的來源及演變過程,顯著提升了資產的透明度和管理效率,為企業在快速發展的AI領域中提供了堅實的支援和競爭優勢。

簡介

AI資產血緣服務是一項關鍵的技術工具,旨在協助企業全面管理和最佳化其AI資產。它提供了一種高效的方式來追蹤和理解資料與模型的來源、使用和演變過程。AI資產血緣中的對象包括但不限於資料集(版本)、資料處理流程、訓練任務、模型(版本)、模型服務等中繼資料。在這些資產對象的詳情頁面中,均提供了查看血緣的入口,使用者能夠輕鬆地進行查看和分析。

image

以下是AI資產血緣服務的幾個主要應用情境:

  • AI資產治理:通過提供詳細的資產血緣資訊,企業可以深入瞭解其AI資產的來源和使用方式。這不僅有助於提升資料和模型的品質,還能確保企業的AI實踐符合合規要求,支援更為精準的資料管理和決策制定。

  • 模型可追溯性:在Responsible AI的背景下,保持AI模型的透明度至關重要。AI資產血緣服務允許企業追蹤模型訓練的資料集、特徵工程方法和參數調整過程。這種可追溯性對於滿足監管要求、驗證實驗結果以及進行模型審計至關重要。

  • 故障排查與最佳化:當AI服務出現效能問題時,資產血緣資訊可以協助快速定位問題根源。例如,如果模型的預測準確率突然下降,可能是由於上遊資料處理發生了變化。通過血緣圖,企業能夠迅速識別並解決這些問題。

  • 資源使用率提升:瞭解任務之間的依賴關係使企業能夠更合理地分配計算資源,避免重複計算,節省成本。同時,在大規模實驗中,通過血緣資訊瞭解任務和資料之間的依賴關係,企業可以識別出哪些任務可以並存執行,從而實現更高效的資源利用和處理能力。

  • 提升協作效率:在大型組織中,多個團隊可能會共用同一套基礎設施進行研究。清晰的任務血緣資訊促進了跨團隊的溝通和知識共用,加速創新過程。

前提條件

要使用AI資產血緣服務,首先需要在DataWorks控制台開通DataWorks服務。具體要求如下:

  • DataWorks標準版:對於常規的AI資產血緣服務,您需要開通DataWorks標準版。

  • DataWorks專業版:如果您需要使用DLC模型訓練任務和工作流程工作的血緣上報能力,則需要開通DataWorks專業版。

更多DataWorks版本資訊,請參見DataWorks各版本詳解

血緣上報方式及查看入口

血緣上報是指當使用者在PAI產品進行AI模型的開發、訓練、部署和維護過程中,系統自動或手動地記錄和產生與模型相關的各種中繼資料及其相互關係。具體包含以下操作:

建立資料集

資料集支援版本管理,每個版本都是獨立的血緣資產對象。使用者可以查看指定資料集版本的血緣資訊,並查詢該版本的上下遊關係。

  • 血緣資訊結構

  • 操作入口:建立資料集

    image

  • 查看血緣入口:在資料集列表單擊指定資料集名稱,在指定版本詳情地區查看血緣。

    image

資料預先處理任務

  • 操作入口:如果在DataWorks中基於MaxCompute等巨量資料引擎進行了生產環境的資料分析任務,並且輸入/輸出是MaxCompute表、OSS路徑,該血緣也可以在PAI血緣資訊看板中查看和分析。例如使用者通過多次SQL任務產出了一個MaxCompute表,並將這個表註冊成為PAI資料集,那麼從這個資料集的血緣資訊中也可以繼續向上追溯到對應的表產出任務。

  • 查看血緣入口:在資料集列表單擊指定資料集名稱,在指定版本詳情地區查看血緣。

    image

資料標註任務

在資料標註iTAG中建立標註任務時,使用者需要指定輸入資料集。當標註任務建立成功後,系統將自動上報以下結構的血緣資訊。

  • 血緣資訊結構

  • 操作入口

    • 建立標註任務

      image

    • 匯出標註結果資料

      image

      image

  • 查看血緣入口:在標註資料集列表單擊來源資料集名稱,在版本詳情地區查看血緣。

    image

    image

工作流程工作

當前支援將整個工作流程工作作為一個獨立的任務資產對象。在Designer(PAIFlow)中提交工作流程工作時,如果工作流程中包含讀資料表讀OSS資料模型註冊資料集註冊等組件,任務執行成功後,系統將自動上報以下結構的血緣資訊。

  • 血緣資訊結構

  • 操作入口:建立自訂工作流程

    image

    進入工作流程後,根據實際業務添加相關組件。此處以添加讀OSS資料、資料集註冊組件為例介紹:

    image

  • 查看血緣入口:在工作流程工作清單單擊任務名稱,在任務流基本資料地區查看血緣。

    image

    image

    image

模型訓練任務

Model Gallery

在Model Gallery提交的模型訓練任務執行成功後,系統會自動上報如下結構的血緣資訊。

  • 血緣資訊結構

  • 操作入口:訓練模型

    image

  • 查看血緣入口:在模型列表單擊模型名稱,在版本列表地區單擊指定版本號碼查看血緣。

    image

    image

DLC

在分布式訓練DLC提交的任務中,使用者可以手動上報血緣資訊,並根據實際任務情況配置輸入和輸出。該方案適合技術能力較強且業務成熟的使用者,否則可能會影響血緣資訊的準確性。如有需要,請聯絡您的商務經理添加白名單使用。

註冊模型

模型支援版本管理,每個版本都是獨立的血緣資產對象。使用者可以查看指定模型版本的血緣資訊,並查詢該模型的上下遊關係。

  • 血緣資訊結構

  • 操作入口:註冊模型

    image

    說明

    除了上述手動註冊模型以外,在Model Gallery提交訓練任務執行成功後,產出的模型會自動註冊為當前工作空間中的模型資產,詳情請參見Model Gallery

  • 查看血緣入口:在模型列表單擊模型名稱,在版本列表地區單擊指定版本號碼查看血緣。

    image

    image

部署模型服務

模型支援版本管理,每個版本都是獨立的血緣資產對象。使用者可以查看指定模型版本的血緣資訊,並查詢該模型的上下遊關係。

  • 血緣資訊結構

  • 操作入口:註冊模型

    • 從AI資產-模型管理頁面部署至EAS:

      image

    • 在工作空間-事件中心配置模型版本允許上線事件:

      image

      當模型准入狀態從待定(Pending)變更為準入(Approved),會自動觸發模型服務的更新:

      image

  • 查看血緣入口:在服務列表單擊服務名稱,在基本資料地區查看血緣。

    image

    image

    image

    關鍵說明:

    如果某個EAS服務包含多個版本,則在血緣關係中,這些版本的EAS服務將對應同一個實體物件(EAS執行個體)。當需要對指定版本的服務進行分析時,可以通過更新模型服務節點中的VersionId來進行定位。

相關文檔

資料集管理

模型管理

管理工作流程工作