全部產品
Search
文件中心

Platform For AI:服務部署:控制台

更新時間:Dec 05, 2024

EAS支援將從開源社區下載的模型或您自己訓練獲得的模型部署為推理服務或AI-Web應用。針對不同方式擷取的訓練模型,EAS支援不同的部署方式。此外,EAS還提供了一系列針對特定情境的部署方式,您可以通過控制台快速將其部署為線上服務。本文介紹如何使用控制台方式部署及管理服務。

背景資訊

您可以通過控制台部署及管理EAS

  • 控制台部署支援自訂模型部署情境化模型部署兩種方式:

    • 自訂模型部署:自訂模型部署提供更靈活的部署方式,您可以通過鏡像、processor等方式快速進行AI-Web應用或推理服務的部署。

    • 情境化模型部署:EAS提供了多種針對特定情境的部署解決方案,包括AI繪畫-SDWebUI部署、LLM大語言模型、大模型RAG對話系統、AI視頻產生-ComfyUI部署、ModelScope模型部署、HuggingFace模型部署、Triton部署和TFServing部署。對於這些不同的部署情境,均提供了簡易的部署方法。

  • 管理EAS

    EAS支援通過控制台方式管理已部署的模型服務,包括:查看服務詳情、更新服務資源配置、更新服務版本、擴縮容等操作。

使用步驟

  1. 登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS

  2. 推理服務頁簽,單擊部署服務。在部署服務頁面,選擇並單擊相應的部署方式。

    部署方式

    描述

    自訂模型部署

    自訂部署

    提供更靈活的部署方式。支援通過Processor的形式,或鏡像、模型、代碼、運行命令和三方庫的方式,將您自己的模型部署為線上服務或AI-Web應用。具體的參數配置說明,請參見自訂部署參數說明

    JSON獨立部署

    根據輸入的JSON檔案內容來完成模型部署。具體的參數配置說明,請參見服務模型所有相關參數說明

    情境化模型部署

    AI繪畫-SDWebUI部署

    一鍵部署基於開源SDWebUI繪畫的AIGC服務,提供Web應用和API調用兩種部署方式,通過使用者與計算資源分離實現企業級應用。

    LLM大語言模型部署

    一鍵部署支援WebUI和API調用的LLM應用,您可以利用LangChain框架組成企業知識庫,以實現智能問答和自動化功能。通過Blade內建推理加速,實現簡單的部署方式及較高性價比的推理方案。

    大模型RAG對話系統

    一鍵部署整合了大語言模型(LLM)和檢索增強產生(RAG)技術的對話系統服務。適用於問答、摘要產生和依賴外部知識的自然語言處理任務。

    AI視頻產生-ComfyUI部署

    一鍵部署基於ComfyUI和Stable Video Diffusion模型的AI視頻產生服務,協助您完成社交平台短視頻內容產生、動畫製作等任務。

    Modelscope模型部署

    一鍵部署ModelScope開源模型,快速啟動模型服務。

    Triton Inference Server鏡像部署

    利用基於Trition Server的推理服務引擎,將TensorRT、TensorFlow、PyTorch或ONNX等多種AI架構的模型一鍵部署為線上推理服務。

    TensorFlow Serving鏡像部署

    利用基於TensorFlow Serving的推理服務引擎,將Tensorflow標準的SavedModel格式的模型一鍵部署為線上推理服務。

  3. 參數配置完成後,單擊部署。等待一段時間,當服務狀態變為運行中時,表明服務部署成功。

自訂部署參數說明

基本資料

參數

描述

服務名稱

根據介面提示,自訂服務名稱。

所屬群組

服務分組擁有統一的流量入口,適用於灰階發布、藍綠部署、異構資源、非同步推理等情境。詳情請參見服務群組

環境資訊

部署方式支援鏡像部署和processor部署。

  • 鏡像部署:如果您想通過鏡像、代碼及模型掛載的方式快速進行AI推理服務的部署,則選擇該部署方式。

  • processor部署:如果您想通過模型和Processor(包括預置Processor自訂Processor)進行推理服務的部署,則選擇該部署方式。

說明

在複雜的模型推理情境中,例如AIGC、視頻處理等情境,推理耗時比較長,需要開啟非同步服務開關,實現非同步推理服務,詳情請參見部署非同步推理服務

鏡像部署

鏡像部署支援非同步服務和開啟Web應用。如果您使用的鏡像中整合了WebUI應用的部分,開啟Web應用後平台會自動開啟web伺服器,從而協助您直接存取前端WebUI頁面。

參數

描述

鏡像配置

支援以下幾種配置方式:

  • 官方鏡像:由阿里雲PAI產品提供的多種官方鏡像。

  • 自訂鏡像:選擇已建立的自訂鏡像。關於如何建立自訂鏡像,詳情請參見自訂鏡像

  • 鏡像地址:支援輸入用於部署模型服務的鏡像地址,例如registry.cn-shanghai.aliyuncs.com/xxx/image:tag。您可以使用PAI官方公開鏡像地址,也可以使用自訂鏡像地址。鏡像地址的擷取方式,詳情請參見自訂鏡像

    重要

    選擇的鏡像地址和部署的服務需要在同一個地區。

    如果您使用私人倉庫中的鏡像,則需要單擊輸入帳號密碼,輸入鏡像倉庫使用者名稱鏡像倉庫密碼

模型配置

支援通過以下方式配置模型檔案。

  • OSS

    • 配置OSS源地址路徑,即選擇OSS Bucket路徑。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取OSS路徑中的檔案。

  • 通用型NAS

    • 選擇檔案系統:配置為已建立的NAS檔案系統的ID。您可以登入NAS控制台,在對應的地區,查看NAS檔案系統ID。也可從下拉式清單中查看擁有的NAS檔案系統ID。

    • 檔案系統掛載點:選擇NAS檔案系統和掛載點,EAS服務通過掛載點來訪問NAS檔案系統。如何建立通用型NAS檔案系統,詳情請參見建立檔案系統

    • 檔案系統路徑:需要掛載的NAS中的源路徑,即NAS執行個體內部的檔案系統路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取NAS路徑中的檔案。

  • 智算CPFS:如果使用的是靈駿相關的計算資源配額部署服務,則支援掛載靈駿CPFS的儲存資源。

    • 檔案系統:選擇該帳號下的智算CPFS檔案系統。如何建立智算CPFS檔案系統,詳情請參見建立檔案系統

    • 源路徑:需要掛載的智算CPFS的源路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取CPFS路徑中的檔案。

  • PAI模型

    • 根據模型名稱和模型版本選擇登入的模型。關於如何查看登入的模型,詳情請參見註冊及管理模型

    • 配置掛載路徑:掛載服務執行個體中的目標路徑,用來讀模數型檔案。

運行命令

鏡像的啟動命令,例如:python /run.py

同時您需要輸入連接埠號碼,即鏡像啟動後監聽的本地HTTP連接埠。

重要

由於EAS引擎監聽固定的8080和9090連接埠,因此連接埠需要避開8080和9090連接埠。

代碼配置

支援使用以下幾種進行代碼配置。

  • OSS

    • 配置OSS源地址路徑,即選擇OSS Bucket路徑。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取OSS路徑中的檔案。

  • 通用型NAS

    • 選擇檔案系統:配置為已建立的NAS檔案系統的ID。您可以登入NAS控制台,在對應的地區,查看NAS檔案系統ID。也可從下拉式清單中查看擁有的NAS檔案系統ID。

    • 檔案系統掛載點:選擇NAS檔案系統和掛載點,EAS服務通過掛載點來訪問NAS檔案系統。如何建立通用型NAS檔案系統,詳情請參見建立檔案系統

    • 檔案系統路徑:需要掛載的NAS中的源路徑,即NAS執行個體內部的檔案系統路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取NAS路徑中的檔案。

  • 智算CPFS:如果使用的是靈駿相關的計算資源配額部署服務,則支援掛載靈駿CPFS的儲存資源。

    • 檔案系統:選擇該帳號下的智算CPFS檔案系統。如何建立智算CPFS檔案系統,詳情請參見建立檔案系統

    • 源路徑:需要掛載的智算CPFS的源路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取CPFS路徑中的檔案。

  • Git

    • Git地址:配置Git代碼地址。

    • 掛載路徑:掛載服務執行個體中的目標路徑,用來讀取Git代碼地址中的代碼檔案。

  • 代碼配置

    • 選擇已建立的代碼集,如果沒有代碼集,您可以單擊建立代碼配置來建立一個新的代碼集。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取PAI代碼集。

  • 自訂資料集

    • 選擇已建立的資料集,如果沒有資料集,您可以單擊建立資料集來建立一個新的資料集。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取PAI資料集。

三方庫配置

支援以下兩種方式配置第三方庫。

  • 三方庫列表:直接在下方文字框中輸入三方庫。

  • requirements.txt檔案路徑:將第三方庫寫入requirements.txt檔案中,在下方文字框中指定該requirements.txt檔案的路徑。

環境變數

組態變數名和變數值:

  • 變數名:鏡像執行時的環境變數名稱。

  • 變數值:鏡像執行時的環境變數取值。

processor部署

部署方式選擇processor部署時,參數配置如下表所示:

參數

描述

模型配置

您可以通過以下任何一種方式配置模型檔案:

  • Object Storage Service:選擇模型檔案所在的OSS路徑。

  • 公網下載地址:輸入可以公開訪問的URL地址。

  • PAI模型:根據模型名稱和模型版本選擇登入的模型。關於如何查看登入的模型,詳情請參見註冊及管理模型

Processor種類

支援所有的預置官方Processor和自訂Processor,關於預置官方Processor的更多資訊,詳情請參見預置Processor使用說明

模型類別

Processor種類選擇EasyVision(CPU)EasyVision(GPU)EasyTransfer(CPU)EasyTransfer(GPU)EasyNLPEasyCV時,支援配置該參數。上述每個Processor種類對應的模型類別不同,請根據業務使用情境選擇。

Processor語言

Processor種類選擇自訂processor時,支援配置。

支援選擇cppjavapython

Processor包

Processor種類選擇自訂processor時,支援配置。您可以通過以下任何一種方式配置Processor包:

  • Object Storage Service:選擇檔案所在的OSS路徑。

  • 公網下載地址:輸入可以公開訪問的URL地址。

Processor主檔案

Processor種類選擇自訂processor時,支援配置。自訂Processor包的主檔案。

掛載配置

支援使用以下幾種掛載方式。

  • OSS

    • 配置OSS源地址路徑,即選擇OSS Bucket路徑。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取OSS路徑中的檔案。

  • 通用型NAS

    • 選擇檔案系統:配置為已建立的NAS檔案系統的ID。您可以登入NAS控制台,在對應的地區,查看NAS檔案系統ID。也可從下拉式清單中查看擁有的NAS檔案系統ID。

    • 檔案系統掛載點:選擇NAS檔案系統和掛載點,EAS服務通過掛載點來訪問NAS檔案系統。如何建立通用型NAS檔案系統,詳情請參見建立檔案系統

    • 檔案系統路徑:需要掛載的NAS中的源路徑,即NAS執行個體內部的檔案系統路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取NAS路徑中的檔案。

  • 智算CPFS:如果使用的是靈駿相關的計算資源配額部署服務,則支援掛載靈駿CPFS的儲存資源。

    • 檔案系統:選擇該帳號下的智算CPFS檔案系統。如何建立智算CPFS檔案系統,詳情請參見建立檔案系統

    • 源路徑:需要掛載的智算CPFS的源路徑。

    • 掛載路徑:掛載到服務執行個體中的目標路徑,用來讀取CPFS路徑中的檔案。

  • Git

    • Git地址:配置Git代碼地址。

    • 掛載路徑:掛載服務執行個體中的目標路徑,用來讀取Git代碼地址中的代碼檔案。

  • 代碼配置

    • 選擇已建立的代碼集,如果沒有代碼集,您可以單擊建立代碼配置來建立一個新的代碼集。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取PAI代碼集。

  • 自訂資料集

    • 選擇已建立的資料集,如果沒有資料集,您可以單擊建立資料集來建立一個新的資料集。

    • 配置掛載路徑,即配置掛載服務執行個體中的目標路徑,用來讀取PAI資料集。

環境變數

組態變數名和變數值:

  • 變數名:鏡像執行時的環境變數名稱。

  • 變數值:鏡像執行時的環境變數取值。

資源部署

資源部署地區配置以下參數。

參數

描述

資源類型

支援選擇公用資源或已購買(建立)的專屬資源群組。如何購買專屬資源群組,詳情請參見使用專屬資源群組

說明

建議在任務量相對較少、對任務時效性要求不高的情境下使用公用資源群組。

GPU共用

資源類型選擇EAS資源群組時,支援開啟GPU共用功能。具體配置方法,請參見GPU共用

說明

當前GPU共用功能僅供白名單使用者受限申請使用,如果您希望使用GPU共用功能,請先提交工單,申請添加GPU共用功能使用白名單。

執行個體數

建議配置多個服務執行個體,以避免單點部署帶來的風險。

資源類型選擇 EAS資源群組時,您需要為每個服務執行個體配置GPUCPU記憶體(GB)參數。

部署資源

資源類型選擇公用資源時:

  • 支援選擇單個CPU或GPU執行個體規格。

  • 支援配置多規格執行個體競價執行個體

    • 搶佔型保留時間長度:您可以為搶佔型執行個體設定1小時保護期,即執行個體搶佔成功後,預設至少可以使用1小時。

    • 部署資源:支援同時配置常規型資源或搶佔型資源,並按照配置規格的先後順序作為優先順序排序來拉起資源,最多支援添加5個資源類型。如果您設定搶佔型資源,需要為該機器資源設定出價上限,用來自動競價搶佔資源。

彈性資源集區

資源類型選擇EAS資源群組時,支援配置該參數。

您可以開啟開啟彈性資源集區開關並參考部署資源進行公用資源配置,為部署在專屬資源群組中的服務開啟彈性資源集區能力。

彈性資源集區配置完成後,當服務擴容時遇到機器資源不足時,新擴出來的執行個體會自動啟動在已配置的隨用隨付的公用資源上,並以隨用隨付的方式來進行計費;在縮容時會優先縮減公用資源群組中的服務執行個體。更多詳細內容,請參見彈性資源集區

額外系統硬碟

資源類型選擇公用資源或者選擇EAS資源群組且配置彈性資源集區時,支援配置該參數。

為EAS服務配置額外系統硬碟,單位為GB,取值範圍為0~2000 GB。EAS免費贈送30 GB系統硬碟,如果此處配置20 GB,則實際可用的儲存空間為:免費的30 GB+購買的20 GB=50 GB

額外購買的系統硬碟按容量和使用時間長度計費,計費詳情請參見模型線上服務(EAS)計費說明

專用網路(可選)

專用網路地區,配置專用網路(VPC交換器安全性群組名稱參數,為部署在公用資源群組中的EAS服務開通VPC高速直連。詳情請參見配置網路連通

網路連通後,該VPC環境中的ECS伺服器等即可通過建立的彈性網卡訪問部署在公用資源群組中的EAS服務,同時EAS服務也可以訪問VPC環境中的其他雲產品。

服務功能(可選)

服務功能地區,支援配置以下參數:

參數

描述

記憶體緩衝加速

EAS通過將模型檔案快取到本地目錄中,來提高讀取資料的速度,減少延時。更多關於該功能的詳細介紹及配置方法,請參見記憶體緩衝本地目錄

專屬網關

通過配置專屬網關,不僅可以增強存取控制與安全性,還可以提升網路訪問服務的效率。如何建立專屬網關以及配置存取控制,詳情請參見服務專屬網關

LLM智能路由

開啟開關,並選擇LLM智能路由。如果沒有可選的LLM智能路由,您可以單擊建立LLM智能路由進行建立,詳情請參見LLM智能路由:提升LLM推理系統整體效率

LLM智能路由是一種特殊的EAS服務,可以與LLM推理服務綁定。當LLM推理服務有多個後端執行個體時,LLM智能路由能夠根據後端負載進行動態分發,保證後端執行個體處理的算力和顯存儘可能均勻,提升叢集資源使用水位。

健全狀態檢查

開啟健全狀態檢查開關,為服務配置健全狀態檢查功能。更多關於該功能的詳細介紹及配置方法,請參見健全狀態檢查

共用記憶體

配置執行個體的共用記憶體,直接對記憶體進行讀寫操作,無需資料的複製或傳輸。單位為GB。

啟用GRPC

表示是否開啟服務網關的GRPC串連,取值如下:

  • false:預設值,表示網關不開啟GRPC連結,預設支援HTTP請求。

  • true:表示網關開啟GRPC串連。

服務響應逾時時間長度

服務端為每個請求配置的逾時時間,預設為5秒。

變換

  • 更新建立執行個體數:服務變換過程中,多於指定執行個體數,最多可以額外建立的執行個體個數。該參數可以為正整數,表示執行個體個數;也可以為百分比,例如2%。預設比例為2%。增大該參數可以提高服務更新速度。例如:服務執行個體個數指定為100,該參數配置為20,則服務更新開始後會立即建立20個新執行個體。

  • 最大不可用執行個體數:服務變換過程中,最大停用執行個體個數。該參數可以在服務更新過程中,為新執行個體釋放資源,避免服務因空閑資源不足而更新卡住。目前在專有資源群組中,該參數預設為1;在公用資源群組中,該參數預設為0。例如:該參數為N,則服務更新開始時會立即停止N個執行個體。

    說明

    如果空閑資源充足,可以將該參數配置為0。該參數配置過大可能會影響服務穩定性。因為在服務更新瞬間,可用執行個體個數會減少,則單一實例承載的流量會變大。您需要權衡服務穩定性和資源情況來配置該參數。

優雅退出

  • 優雅退出時間:表示執行個體的優雅退出時間,單位為秒,預設為30秒。EAS服務採用變換的策略,執行個體會先進入Terminating狀態,服務會先將流量從要退出的執行個體上切走,執行個體等待30秒後將已收到的請求處理完成後退出。如果請求處理時間很長,為保證服務更新時,狀態為in progress的請求都能被處理完,您可以將該參數值適當調大。

    重要

    如果將該參數值調小則會影響服務穩定性,將該參數配置過大則會導致服務更新速度過慢,如果無特別需求請不要配置該參數。

  • 是否發送SIGTERM:取值如下:

    • false(預設值):執行個體進入退出狀態時不會發送SIGTERM訊號。

    • true:在服務執行個體進入退出狀態時,系統會立即向主進程發送SIGTERM訊號,服務內進程收到該訊號後需要在訊號處理函數中進行自訂的優雅退出操作,若不處理該訊號可能導致主進程收到訊號後直接退出,從而使優雅退出失敗。

儲存調用記錄

支援將服務所有的請求和響應記錄持久化儲存到MaxCompute資料表或Log ServiceSLS中。開啟開關,並選擇儲存記錄方式

  • 巨量資料MaxCompute

    • MaxCompute專案:在下拉式清單中選擇已建立的專案。如果沒有可選的專案,您也可以單擊建立MaxCompute專案進行建立,詳情請參見通過MaxCompute控制台建立專案

    • MaxCompute資料表:配置資料表名稱,部署服務時,系統會自動在MaxCompute專案中建立資料表。

  • Log ServiceSLS

    • 選擇SLS Project:Log Service中的資源嵌入式管理單元,用於資源隔離和控制。選擇已建立的專案,如果沒有可選的專案,您可以單擊前往建立SLS Project進行建立,詳情請參見管理Project

    • logstore:日誌庫(Logstore)是Log Service中日誌資料的採集、儲存和查詢單元。配置logstore,部署服務時,系統會自動在SLS Project專案中建立logstore。

任務模式

開啟開關,您可以將推理服務部署成彈性Job服務。更多關於彈性Job服務的內容介紹,請參見彈性Job服務功能介紹

服務配置

服務配置地區,顯示以上服務配置對應的JSON設定檔內容。

您可以根據需要補充一些在介面不支援配置的配置項,詳情請參見服務模型所有相關參數說明

基於JSON設定檔,您可以通過EASCMD用戶端部署模型,詳情請參見建立服務

管理EAS模型線上服務

您可以在模型線上服務頁面的推理服務頁簽,查看已部署的服務列表,並對目標服務進行停止、啟動、刪除等操作。

警告

停止或刪除模型服務,會導致依賴該服務的相關請求失敗,請謹慎操作。

  • 查看服務詳情

    • 單擊目標服務名稱,進入服務詳情頁面。在該頁面查看服務基本資料、服務執行個體和服務配置等。

    • 在服務詳情頁面上方,您可以切換至不同的功能頁簽,以查看服務監控、日誌、部署事件等資訊。

  • 查看容器日誌

    目前EAS在服務執行個體維度已經實現了容器日誌的彙總和過濾,一旦服務執行個體運行失敗,您可以通過查看容器日誌來排查報錯資訊。具體操作步驟如下:

    1. 單擊目標服務名稱,進入服務詳情頁面。

    2. 服務執行個體地區,單擊操作列下的容器列表

    3. 容器列表對話方塊中,單擊操作列下的日誌

  • 更新服務資源配置

    在服務詳情頁面,單擊資源資訊地區的資源配置

  • 更新已有服務版本

    在推理服務列表中,單擊目標服務操作列下的更新,來更新服務版本。

    警告

    服務更新過程中將暫時中斷運行,可能導致依賴此服務的請求失敗,請務必謹慎操作。

    服務更新完成後,單擊目前的版本,查看版本資訊或切換服務版本。image

  • 擴縮容

    在推理服務列表中,單擊目標服務操作列下的擴縮容,配置執行個體數,來提高或減少指定模型服務佔用的資源。

  • Auto Scaling

    根據業務需求,佈建服務以自動調整EAS其佔用的資源。具體操作,請參見方式一:通過控制台管理水平自動擴縮容功能

相關文檔