EAS支援將從開源社區下載的模型或您自己訓練獲得的模型部署為推理服務或AI-Web應用。針對不同方式擷取的訓練模型,EAS支援不同的部署方式。此外,EAS還提供了一系列針對特定情境的部署方式,您可以通過控制台快速將其部署為線上服務。本文介紹如何使用控制台方式部署及管理服務。
背景資訊
您可以通過控制台部署及管理EAS。
控制台部署支援自訂模型部署和情境化模型部署兩種方式:
自訂模型部署:自訂模型部署提供更靈活的部署方式,您可以通過鏡像、processor等方式快速進行AI-Web應用或推理服務的部署。
情境化模型部署:EAS提供了多種針對特定情境的部署解決方案,包括AI繪畫-SDWebUI部署、LLM大語言模型、大模型RAG對話系統、AI視頻產生-ComfyUI部署、ModelScope模型部署、HuggingFace模型部署、Triton部署和TFServing部署。對於這些不同的部署情境,均提供了簡易的部署方法。
EAS支援通過控制台方式管理已部署的模型服務,包括:查看服務詳情、更新服務資源配置、更新服務版本、擴縮容等操作。
使用步驟
登入PAI控制台,在頁面上方選擇目標地區,並在右側選擇目標工作空間,然後單擊進入EAS。
在推理服務頁簽,單擊部署服務。在部署服務頁面,選擇並單擊相應的部署方式。
部署方式
描述
自訂模型部署
自訂部署
提供更靈活的部署方式。支援通過Processor的形式,或鏡像、模型、代碼、運行命令和三方庫的方式,將您自己的模型部署為線上服務或AI-Web應用。具體的參數配置說明,請參見自訂部署參數說明。
JSON獨立部署
根據輸入的JSON檔案內容來完成模型部署。具體的參數配置說明,請參見服務模型所有相關參數說明。
情境化模型部署
一鍵部署基於開源SDWebUI繪畫的AIGC服務,提供Web應用和API調用兩種部署方式,通過使用者與計算資源分離實現企業級應用。
一鍵部署支援WebUI和API調用的LLM應用,您可以利用LangChain框架組成企業知識庫,以實現智能問答和自動化功能。通過Blade內建推理加速,實現簡單的部署方式及較高性價比的推理方案。
一鍵部署整合了大語言模型(LLM)和檢索增強產生(RAG)技術的對話系統服務。適用於問答、摘要產生和依賴外部知識的自然語言處理任務。
一鍵部署基於ComfyUI和Stable Video Diffusion模型的AI視頻產生服務,協助您完成社交平台短視頻內容產生、動畫製作等任務。
一鍵部署ModelScope開源模型,快速啟動模型服務。
利用基於Trition Server的推理服務引擎,將TensorRT、TensorFlow、PyTorch或ONNX等多種AI架構的模型一鍵部署為線上推理服務。
利用基於TensorFlow Serving的推理服務引擎,將Tensorflow標準的SavedModel格式的模型一鍵部署為線上推理服務。
參數配置完成後,單擊部署。等待一段時間,當服務狀態變為運行中時,表明服務部署成功。
自訂部署參數說明
基本資料
參數 | 描述 |
服務名稱 | 根據介面提示,自訂服務名稱。 |
所屬群組 | 服務分組擁有統一的流量入口,適用於灰階發布、藍綠部署、異構資源、非同步推理等情境。詳情請參見服務群組。 |
環境資訊
部署方式支援鏡像部署和processor部署。
鏡像部署:如果您想通過鏡像、代碼及模型掛載的方式快速進行AI推理服務的部署,則選擇該部署方式。
processor部署:如果您想通過模型和Processor(包括預置Processor和自訂Processor)進行推理服務的部署,則選擇該部署方式。
在複雜的模型推理情境中,例如AIGC、視頻處理等情境,推理耗時比較長,需要開啟非同步服務開關,實現非同步推理服務,詳情請參見部署非同步推理服務。
鏡像部署
鏡像部署支援非同步服務和開啟Web應用。如果您使用的鏡像中整合了WebUI應用的部分,開啟Web應用後平台會自動開啟web伺服器,從而協助您直接存取前端WebUI頁面。
參數 | 描述 |
鏡像配置 | 支援以下幾種配置方式: |
模型配置 | 支援通過以下方式配置模型檔案。
|
運行命令 | 鏡像的啟動命令,例如: 同時您需要輸入連接埠號碼,即鏡像啟動後監聽的本地HTTP連接埠。 重要 由於EAS引擎監聽固定的8080和9090連接埠,因此連接埠需要避開8080和9090連接埠。 |
代碼配置 | 支援使用以下幾種進行代碼配置。
|
三方庫配置 | 支援以下兩種方式配置第三方庫。
|
環境變數 | 組態變數名和變數值:
|
processor部署
部署方式選擇processor部署時,參數配置如下表所示:
參數 | 描述 |
模型配置 | 您可以通過以下任何一種方式配置模型檔案:
|
Processor種類 | 支援所有的預置官方Processor和自訂Processor,關於預置官方Processor的更多資訊,詳情請參見預置Processor使用說明。 |
模型類別 | 當Processor種類選擇EasyVision(CPU)、EasyVision(GPU)、EasyTransfer(CPU)、EasyTransfer(GPU)、EasyNLP、EasyCV時,支援配置該參數。上述每個Processor種類對應的模型類別不同,請根據業務使用情境選擇。 |
Processor語言 | 當Processor種類選擇自訂processor時,支援配置。 支援選擇cpp、java及python。 |
Processor包 | 當Processor種類選擇自訂processor時,支援配置。您可以通過以下任何一種方式配置Processor包:
|
Processor主檔案 | 當Processor種類選擇自訂processor時,支援配置。自訂Processor包的主檔案。 |
掛載配置 | 支援使用以下幾種掛載方式。
|
環境變數 | 組態變數名和變數值:
|
資源部署
在資源部署地區配置以下參數。
參數 | 描述 |
資源類型 | 支援選擇公用資源或已購買(建立)的專屬資源群組。如何購買專屬資源群組,詳情請參見使用專屬資源群組。 說明 建議在任務量相對較少、對任務時效性要求不高的情境下使用公用資源群組。 |
GPU共用 | 當資源類型選擇EAS資源群組時,支援開啟GPU共用功能。具體配置方法,請參見GPU共用。 說明 當前GPU共用功能僅供白名單使用者受限申請使用,如果您希望使用GPU共用功能,請先提交工單,申請添加GPU共用功能使用白名單。 |
執行個體數 | 建議配置多個服務執行個體,以避免單點部署帶來的風險。 當資源類型選擇 EAS資源群組時,您需要為每個服務執行個體配置GPU、CPU和記憶體(GB)參數。 |
部署資源 | 當資源類型選擇公用資源時:
|
彈性資源集區 | 僅資源類型選擇EAS資源群組時,支援配置該參數。 您可以開啟開啟彈性資源集區開關並參考部署資源進行公用資源配置,為部署在專屬資源群組中的服務開啟彈性資源集區能力。 彈性資源集區配置完成後,當服務擴容時遇到機器資源不足時,新擴出來的執行個體會自動啟動在已配置的隨用隨付的公用資源上,並以隨用隨付的方式來進行計費;在縮容時會優先縮減公用資源群組中的服務執行個體。更多詳細內容,請參見彈性資源集區。 |
額外系統硬碟 | 資源類型選擇公用資源或者選擇EAS資源群組且配置彈性資源集區時,支援配置該參數。 為EAS服務配置額外系統硬碟,單位為GB,取值範圍為0~2000 GB。EAS免費贈送30 GB系統硬碟,如果此處配置20 GB,則實際可用的儲存空間為: 額外購買的系統硬碟按容量和使用時間長度計費,計費詳情請參見模型線上服務(EAS)計費說明。 |
專用網路(可選)
在專用網路地區,配置專用網路(VPC)、交換器和安全性群組名稱參數,為部署在公用資源群組中的EAS服務開通VPC高速直連。詳情請參見配置網路連通。
網路連通後,該VPC環境中的ECS伺服器等即可通過建立的彈性網卡訪問部署在公用資源群組中的EAS服務,同時EAS服務也可以訪問VPC環境中的其他雲產品。
服務功能(可選)
在服務功能地區,支援配置以下參數:
參數 | 描述 |
記憶體緩衝加速 | EAS通過將模型檔案快取到本地目錄中,來提高讀取資料的速度,減少延時。更多關於該功能的詳細介紹及配置方法,請參見記憶體緩衝本地目錄。 |
專屬網關 | 通過配置專屬網關,不僅可以增強存取控制與安全性,還可以提升網路訪問服務的效率。如何建立專屬網關以及配置存取控制,詳情請參見服務專屬網關。 |
LLM智能路由 | 開啟開關,並選擇LLM智能路由。如果沒有可選的LLM智能路由,您可以單擊建立LLM智能路由進行建立,詳情請參見LLM智能路由:提升LLM推理系統整體效率。 LLM智能路由是一種特殊的EAS服務,可以與LLM推理服務綁定。當LLM推理服務有多個後端執行個體時,LLM智能路由能夠根據後端負載進行動態分發,保證後端執行個體處理的算力和顯存儘可能均勻,提升叢集資源使用水位。 |
健全狀態檢查 | 開啟健全狀態檢查開關,為服務配置健全狀態檢查功能。更多關於該功能的詳細介紹及配置方法,請參見健全狀態檢查。 |
共用記憶體 | 配置執行個體的共用記憶體,直接對記憶體進行讀寫操作,無需資料的複製或傳輸。單位為GB。 |
啟用GRPC | 表示是否開啟服務網關的GRPC串連,取值如下:
|
服務響應逾時時間長度 | 服務端為每個請求配置的逾時時間,預設為5秒。 |
變換 |
|
優雅退出 |
|
儲存調用記錄 | 支援將服務所有的請求和響應記錄持久化儲存到MaxCompute資料表或Log ServiceSLS中。開啟開關,並選擇儲存記錄方式:
|
任務模式 | 開啟開關,您可以將推理服務部署成彈性Job服務。更多關於彈性Job服務的內容介紹,請參見彈性Job服務功能介紹。 |
服務配置
在服務配置地區,顯示以上服務配置對應的JSON設定檔內容。
您可以根據需要補充一些在介面不支援配置的配置項,詳情請參見服務模型所有相關參數說明。
基於JSON設定檔,您可以通過EASCMD用戶端部署模型,詳情請參見建立服務。
管理EAS模型線上服務
您可以在模型線上服務頁面的推理服務頁簽,查看已部署的服務列表,並對目標服務進行停止、啟動、刪除等操作。
停止或刪除模型服務,會導致依賴該服務的相關請求失敗,請謹慎操作。
查看服務詳情
單擊目標服務名稱,進入服務詳情頁面。在該頁面查看服務基本資料、服務執行個體和服務配置等。
在服務詳情頁面上方,您可以切換至不同的功能頁簽,以查看服務監控、日誌、部署事件等資訊。
查看容器日誌
目前EAS在服務執行個體維度已經實現了容器日誌的彙總和過濾,一旦服務執行個體運行失敗,您可以通過查看容器日誌來排查報錯資訊。具體操作步驟如下:
單擊目標服務名稱,進入服務詳情頁面。
在服務執行個體地區,單擊操作列下的容器列表。
在容器列表對話方塊中,單擊操作列下的日誌。
更新服務資源配置
在服務詳情頁面,單擊資源資訊地區的資源配置。
更新已有服務版本
在推理服務列表中,單擊目標服務操作列下的更新,來更新服務版本。
警告服務更新過程中將暫時中斷運行,可能導致依賴此服務的請求失敗,請務必謹慎操作。
服務更新完成後,單擊目前的版本,查看版本資訊或切換服務版本。
擴縮容
在推理服務列表中,單擊目標服務操作列下的擴縮容,配置執行個體數,來提高或減少指定模型服務佔用的資源。
Auto Scaling
根據業務需求,佈建服務以自動調整EAS其佔用的資源。具體操作,請參見方式一:通過控制台管理水平自動擴縮容功能。
相關文檔
服務部署成功後,您可以通過線上調試功能,來測試服務運行是否正常,詳情請參見服務線上調試。
情境化模型部署成功後,您可以調用該服務來驗證模型效果,詳情請參見EAS使用案例匯總。
關於EAS其他的部署方式,請參見服務部署:Designer或服務部署:EASCMD或DSW。