本文介紹如何使用服務網格ASM的動態子集路由能力,將請求直接精準路由到正確的運行時環境,以加速模型服務網格的推理過程。
背景資訊
模型服務網格(Model Service Mesh)提供了一個可擴充的、高效能的基礎架構,用於管理、部署和調度多個模型服務。
當您同時在模型服務網格中運行多個不同模型時,特定模型往往只會被載入到特定的運行時中,而Kubernetes Service會隨機將推理請求發送到任意一個運行時,此推理請求可能要經過模型服務網格的多次路由才能發往模型所在的正確運行時。
動態子集路由可以識別模型服務網格中每個運行時工作負載中正在啟動並執行模型,通過ASM網關識別推理請求對應的模型,將請求精準地路由到正確的運行時工作負載,從而最佳化模型服務網格的路由決策,加速對推理請求的響應過程。有關動態子集路由的詳情,請參考動態子集路由。
前提條件
已建立ASM執行個體,且版本為1.21.6.47及以上。具體操作,請參見建立ASM執行個體。
已添加叢集到ASM執行個體。具體操作,請參見添加叢集到ASM執行個體。
已經開啟了模型服務網格,並部署了sklearn-mnist模型。具體操作,請參見使用模型服務網格進行多模型推理服務。
步驟一:在模型服務網格中部署tf-mnist模型
由於動態子集路由的精準路由能力主要作用於多模型的情境下,因此本文額外部署tf-mnist模型(TensorFlow實現的mnist模型,由triton運行時提供運行環境)到模型服務網格中。
本文繼續沿用使用模型服務網格進行多模型推理服務中建立的PVC my-models-pvc,將tf-minst模型(mnist目錄中所有的內容都是模型內容)儲存在該PVC中。
將tf-mnist模型儲存在持久卷上。
在ACK叢集對應的KubeConfig環境下,執行以下命令,將mnist-svm.joblib模型檔案複製到pvc-access Pod的/mnt/models檔案夾中。
kubectl -n modelmesh-serving cp mnist pvc-access:/mnt/models/
執行以下命令,確認Model已經載入成功。
kubectl -n modelmesh-serving exec -it pvc-access -- ls -alr /mnt/models/
預期輸出:
-rw-r--r-- 1 502 staff 344817 Apr 23 08:17 mnist-svm.joblib drwxr-xr-x 3 root root 4096 Apr 23 08:23 mnist drwxr-xr-x 1 root root 4096 Apr 23 08:17 .. drwxrwxrwx 3 root root 4096 Apr 23 08:23 .
部署推理服務。
使用以下內容建立tf-mnist.yaml。
apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: name: tf-mnist namespace: modelmesh-serving annotations: serving.kserve.io/deploymentMode: ModelMesh spec: predictor: model: modelFormat: name: tensorflow storage: parameters: type: pvc name: my-models-pvc path: mnist
在ACK叢集對應的KubeConfig環境下,執行以下命令,部署tf-mnist推理服務。
kubectl apply -f tf-mnist.yaml
等待片刻後(時間取決於鏡像拉取速度),執行以下命令,查看tf-mnist推理服務是否部署成功。
kubectl get isvc -n modelmesh-serving
預期輸出:
NAME URL READY sklearn-mnist grpc://modelmesh-serving.modelmesh-serving:8033 True tf-mnist grpc://modelmesh-serving.modelmesh-serving:8033 True
由預期輸出可知,模型服務網格中已經部署了sklearn-mnist和tf-mnist兩個不同架構的模型。
步驟二(可選):測試模型服務網格推理請求處理時延
參考fortio專案的安裝說明,安裝fortio壓力測試工具。
使用fortio工具發送推理請求到tf-mnist模型。ASM網關IP地址的擷取請參考ASM整合KServe實現雲原生AI模型推理服務。
ASM_GW_IP="ASM網關IP地址" fortio load -jitter=False -H 'model: tf-mnist' -c 1 -qps 100 -t 60s -payload '{"inputs": [{ "name": "inputs", "shape": [1, 784], "datatype": "FP32", "contents": { "fp32_contents}}]}' -a ${ASM_GW_IP}:8008/v2/models/tf-mnist/infer
預期輸出:
查看fortio可視化壓力測試結果。
運行以下命令,開啟fortio本機伺服器。
fortio server
使用瀏覽器訪問localhost:8080,單擊介面中的
saved results
,在跳轉後的介面選擇fortio工具輸出的json檔案名稱,查看壓力測試的可視化結果。由上圖可發現,發送到模型服務網格的部分推理請求有延遲增加的情況,此時請求經過了模型服務網格的重新路由,響應速度有所下降。
步驟三:對模型服務網格啟用動態子集路由
模型服務網中啟動並執行所有模型都通過modelmesh-serving命名空間下modelmesh-serving服務統一進行訪問,本節示範通過配置modelmesh-serving服務的動態子集路由來實現針對不同模型運行時的精確路由。
使用以下內容,為模型服務網格的modelmesh-serving服務配置動態分組。具體操作請參見管理目標規則。
apiVersion: networking.istio.io/v1beta1 kind: DestinationRule metadata: name: modelmesh-serving namespace: modelmesh-serving spec: host: modelmesh-serving trafficPolicy: loadBalancer: dynamicSubset: subsetSelectors: - fallbackPolicy: ANY_ENDPOINT keys: - modelmesh.asm.alibabacloud.com
上述的目標規則基於
modelmesh.asm.alibabacloud.com
標籤對模型運行時進行動態分組,模型服務網格將根據運行時中實際載入的模型動態更新運行時的標籤。使用以下內容,變更虛擬服務
vs-modelmesh-serving-service
的內容。具體操作,請參見管理虛擬服務。apiVersion: networking.istio.io/v1beta1 kind: VirtualService metadata: name: vs-modelmesh-serving-service namespace: modelmesh-serving spec: gateways: - grpc-gateway hosts: - '*' http: - headerToDynamicSubsetKey: - header: model key: modelmesh.asm.alibabacloud.com match: - port: 8008 name: default route: - destination: host: modelmesh-serving port: number: 8033
上述的虛擬服務基於動態子集路由的要求,添加了
headerToDynamicSubsetKey
欄位,此後ASM網關將把推理請求中的model
請求轉化成請求中繼資料,匹配模型服務網格的動態子集。
步驟四(可選):測試最佳化後的模型服務網格推理請求處理時延
參見步驟二,重新使用fortio運行測試,並查看可視化結果。
由預期結果可知,經過ASM動態子集路由最佳化後,所有的推理請求訪問時延都落在較小的區間,推理請求的時延表現得到很大程度的最佳化。