全部產品
Search
文件中心

Platform For AI:基本概念

更新時間:Dec 21, 2024

本文從管理員視角、AI開發視角及PAI產品模組三個方面介紹涉及的基本概念。

管理員視角

名詞

描述

工作空間(WorkSpace)

工作空間是PAI的頂層概念,為企業和團隊提供統一的計算資源管理及人員許可權管理能力,為AI開發人員提供支援小組協作的全流程開發工具及AI資產管理能力。PAI工作空間和DataWorks工作空間在概念和實現上互連,例如在PAI建立的工作空間也會出現在DataWorks工作空間列表中。

預設工作空間:預設關聯常用的隨用隨付資源(需要同意開通),使新使用者在初始情況下無需瞭解資源群組等概念,即可快速開始開發和訓練流程。

雲原生基礎AI平台DLC(Deep Learning Containers)

PAI提供的雲原生基礎AI平台,提供靈活、穩定、易用和高效能的機器學習訓練環境。該平台支援多種演算法架構、超大規模分布式深度學習任務運行及自訂演算法架構。此外,該平台支援以下兩種工作叢集:

  • DLC全託管叢集:即公用資源群組和專有資源群組。可以作為標準資源群組,由工作空間管理員關聯到工作空間中進行使用。

  • DLC半託管叢集:即自營運資源群組。有自己獨立的Dashboard,您擁有更高的使用自由度。

資源群組(Resource Group)

  • 資源群組可以協助您將擁有的計算資源從用途、許可權和歸屬等多個維度上進行分組,以實現企業內部多使用者、多工作空間的計算資源隔離。

  • 資源群組可以指代MaxCompute配額組、DLC叢集、K8s叢集、EMR叢集、Flink叢集、ECS叢集等PAI工具模組關聯的底層資源單位。

  • 阿里雲帳號和資源管理員可以從MaxCompute、EMR等平台購買並建立資源群組,這些資源群組可以被工作空間消費。

成員(Member)

加入工作空間的阿里雲帳號和RAM使用者被稱為工作空間成員。在AI研發流程中,同一工作空間下的成員以不同的角色協作。工作空間的負責人和管理員可以編輯工作空間內的成員。

角色(Role)

成員和不同許可權集合之間的映射,基礎角色由系統定義,更多角色您可以自行定義。系統支援以下基礎角色:

  • 資源管理員:擁有購買和管理計算資源的許可權,通常是企業的阿里雲帳號,不在PAI頁面顯示管理,您可以通過Resource Access Management許可權點和操作授權。

  • 工作空間負責人:建立工作空間的人自動成為工作空間負責人,擁有編輯工作空間成員、引用資源群組的許可權。

  • 工作空間管理員:擁有編輯工作空間成員、管理資源群組及管理工作空間內全部資產的許可權。

  • 演算法開發:擁有在所屬工作空間中進行開發和模型訓練的許可權。

  • 演算法營運:擁有任務優先順序管理、模型發布及線上服務監控等許可權。

  • 標註管理員:擁有智能標註的操作許可權。

  • 訪客:擁有工作空間中各種資產的唯讀許可權。

雲產品依賴(Dependencies)

要充分使用PAI的所有功能,需要依賴阿里雲的其他產品。通常需要阿里雲帳號或資源管理員預先開通並對RAM進行授權。這些產品包括OSS、NAS、SLS、ACR、API Gateway等。

AI開發視角

名詞

描述

資料集(DataSet)

用於標註、訓練、分析等的資料集合,支援您將儲存在OSS、NAS、MaxCompute等儲存介質中的結構化、非結構化資料或目錄註冊為資料集。同時,PAI支援統一管理資料集的儲存、版本、資料結構等資訊。

工作流程(Pipeline)

您構建DAG(有向非循環圖)用來實現組件之間上下遊邏輯調度的對象,這是一個靜態概念。構建完成後,PAI支援對其進行重複提交運行,產生PipelineRun。

工作流程草稿(PipelineDraft)

您在Designer畫布上操作的編輯狀態的工作流程對象,支援重複編輯以產生不同的Pipeline。PipelineDraft提交運行後會產生PipelineRun。

組件(Component)

您在PAI工作流程和工作流程草稿中編輯以及工作流程工作執行的最小單元。組件可以來源於:

  • 預置組件(Built-in Component):PAI預置了基於阿里巴巴最佳實務的多類組件,涵蓋從資料預先處理到模型訓練及預測的全流程。

  • 自訂群組件(Custom Component):PAI支援您基於代碼和鏡像,自己定義可被工作流程組合編排的組件。

節點(Node)

被拖到畫布上的一個組件,形成工作流程中的一個節點。

工作流程快照(SnapShot)

每次運行PipelineDraft(包括完整運行、單節點運行、部分節點運行),都會記錄完整PipelineDraft的配置資訊,包括節點配置、運行參數、執行方式等,這些資訊可以用於PipelineDraft的版本記錄及配置復原。

工作流程工作(PipelineRun)

一次工作流程的任務執行。您可以通過Designer提交PipelineDraft運行,或通過SDK直接提交Pipeline運行,產生一個PipelineRun。

作業(Job)

運行在計算資源中的任務,例如使用者提交至分布式訓練DLC(Deep Learning Containers)的訓練任務。任務啟動並執行資源環境歸屬使用者。

運行(Run)

一個Run指一次任務執行,相容MLFlow中的概念,必須歸屬於某一個Experiment。您可以使用Run跟蹤PAI上提交的訓練任務,也可以在本地使用MLflow Client直接建立一次任務。一個Run中可包含多個Job。

模型(Model)

模型是您基於資料集和演算法代碼通過訓練任務產出的結果,可以預測新資料。

Processor

線上預測邏輯(模型載入和請求預測邏輯)的程式包,通常與模型檔案一起部署,從而獲得模型服務。PAI支援以下兩類Processor:

  • 預置Processor:針對常用的PMML、TensorFlow等模型,EAS提供了預置的Processor。

  • 自訂Processor:如果EAS提供的預置Processor無法滿足模型部署需求,您可以根據Processor的開發標準自訂Processor。

模型服務(Service)

模型檔案和線上預測邏輯代碼部署成的常駐服務。您可以對模型服務進行建立、更新、停止、啟動、擴容及縮容操作。

鏡像(Image)

PAI支援您將Docker鏡像作為AI資產進行管理,支援以下鏡像來源:

  • PAI官方鏡像

  • 您通過DSW儲存鏡像產生的鏡像

  • 您在ACR中的鏡像

鏡像可以用於工作流程中構建自訂群組件完成指定的任務,在DSW中作為環境拉起DSW執行個體,也可以在提交訓練任務時被指定為執行環境。

執行個體(Instance)

計算資源被啟動的最小單元,包括以下執行個體:

  • DSW執行個體:Notebook執行個體,每個執行個體對應一定的計算資源,可以編輯代碼、調試及訓練。執行個體資源環境歸屬使用者。

  • EAS服務執行個體:每個服務可以部署一個或多個服務執行個體以提高支援的並發請求數。執行個體資源環境歸屬使用者。

PAI產品模組

名詞

描述

智能標註(iTAG)

整合智能能力(黑盒)的資料集標註工具,有效降低標註工作量,快速擷取高品質的標註資料集。

可視化建模(Designer)

面向AI領域的工作流程設計工具,封裝了豐富的機器學習演算法組件。您無需代碼基礎,通過拖拉拽即可訓練模型。

互動式建模(DSW)

面向AI開發人員的雲端機器學習互動式開發IDE,包含Notebook、VSCode及Terminal。您可以基於鏡像指定NAS作為儲存啟動DSW。

容器訓練(DLC)

將訓練任務提交到當前工作空間關聯的計算資源(例如通用計算資源)中,提交後的任務詳情可以在PAI任務管理模組中查看。

模型線上服務(EAS)

支援大規模複雜模型的一鍵部署功能,即時彈性擴縮容,並提供完整的營運監控體系。

AI資產管理

提供包括資料集、模型、代碼配置等核心AI資產的管理能力。

情境化解決方案

基於PAI平台能力孵化的垂直領域解決方案集合,方便您直接應用。