本文以模型為Qwen1.5-4B-Chat,GPU類型為A10卡為例,示範如何在ACK中使用LMDeploy架構部署通義千問(Qwen)模型推理服務。
背景資訊
Qwen1.5-4B-Chat
Qwen1.5-4B-Chat是阿里雲基於Transformer大語言模型研發的40億參數模型,模型在超大規模的預訓練資料(預訓練資料類型多樣且覆蓋廣泛,包括大量網路文本、專業書籍、代碼等)上進行訓練得到。更多模型資訊,請參見Qwen GitHub程式碼程式庫。
LMDeploy
LMDeploy是一種用於壓縮、部署和服務大語言模型(LLM)的工具包。主要表現在以下幾個方面:
模型壓縮與最佳化:LMDeploy可以對大語言模型進行權重量化和KV量化,減少模型大小和記憶體佔用,同時通過各種最佳化手段(如張量並行、KV緩衝等)提高模型推理的效率和輸送量。
部署便捷性:LMDeploy支援將最佳化後的模型部署到多種環境,包括單機、多機、多GPU環境等,支援分布式部署,確保服務的可擴充性和高可用性。
服務管理:LMDeploy可以通過緩衝技術減少重複計算,提高響應速度。
更多關於LMDeploy架構的資訊,請參見LMDeploy GitHub程式碼程式庫。
前提條件
已建立包含GPU節點的ACK叢集Pro版,且叢集版本為1.22及以上,GPU節點顯存需為16GB及以上。具體操作,請參見建立ACK託管叢集。
建議GPU節點使用525版本驅動,您可以通過為GPU節點池添加標籤
ack.aliyun.com/nvidia-driver-version:525.105.17
指定驅動版本為525.105.17。具體操作,請參見通過指定版本號碼自訂節點GPU驅動版本。已安裝最新版Arena用戶端。具體操作,請參見配置Arena用戶端。
步驟一:準備模型資料
本文以Qwen1.5-4B-Chat模型為例,示範如何下載模型、上傳模型至OSS,以及在ACK叢集中建立對應的儲存卷PV和儲存卷聲明PVC。
如需上傳模型至NAS,請參見使用NAS靜態儲存卷。
下載模型檔案。
執行以下命令,安裝Git。
# 可執行yum install git或apt install git安裝。 yum install git
執行以下命令,安裝Git LFS(Large File Support)外掛程式。
# 可執行yum install git-lfs或apt install git-lfs安裝。 yum install git-lfs
執行以下命令,將ModelScope上的Qwen1.5-4B-Chat倉庫複製到本地。
GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/qwen/Qwen1.5-4B-Chat.git
執行以下命令,進入Qwen1.5-4B-Chat目錄,下載LFS管理的大檔案。
cd Qwen1.5-4B-Chat git lfs pull
將下載的Qwen1.5-4B-Chat檔案上傳至OSS。
為目的地組群配置儲存卷PV和儲存聲明PVC。具體操作,請參見使用OSS靜態儲存卷。
以下為樣本PV的配置資訊:
配置項
說明
儲存卷類型
OSS
名稱
llm-model
訪問認證
配置用於訪問OSS的AccessKey ID和AccessKey Secret。
Bucket ID
選擇已建立的OSS Bucket。
OSS Path
選擇模型所在的路徑,如/models/Qwen1.5-4B-Chat。
以下為樣本PVC的配置資訊:
配置項
說明
儲存宣告類型
OSS
名稱
llm-model
分配模式
選擇已有儲存卷。
已有儲存卷
單擊選擇已有儲存卷連結,選擇已建立的儲存卷PV。
步驟二:部署推理服務
執行以下命令,部署一個基於LMDeploy工具的自訂推理服務,服務名為
Qwen1.5-4B-Chat
。arena serve custom \ --name=lmdeploy-qwen \ --version=v1 \ --gpus=1 \ --replicas=1 \ --restful-port=8000 \ --readiness-probe-action="tcpSocket" \ --readiness-probe-action-option="port: 8000" \ --readiness-probe-option="initialDelaySeconds: 30" \ --readiness-probe-option="periodSeconds: 30" \ --image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/lmdeploy:v0.4.2 \ --data=llm-model:/model/Qwen1.5-4B-Chat \ "lmdeploy serve api_server /model/Qwen1.5-4B-Chat --server-port 8000"
參數說明如下所示:
參數
說明
--name
指定推理服務名稱。
--version
指定推理服務版本。
--gpus
指定單個推理服務副本需要使用的GPU卡數。
--replicas
指定推理服務副本數。
--restful-port
指定推理服務對外暴露的連接埠。
--readiness-probe-action
指定就緒探針連線類型,支援HttpGet、Exec、gRPC、TCPSocket。
--readiness-probe-action-option
指定就緒探針串連方式。
--readiness-probe-option
指定就緒探針配置。
--data
掛載共用儲存卷PVC到運行環境中。它由兩部分組成,通過英文冒號(:)分割。冒號左側是您已經準備好的PVC名稱。您可以通過命令
arena data list
查看當前叢集可用的PVC列表;冒號右側是您想將PVC的掛載到運行環境中的路徑,也是您訓練代碼要讀取資料或模型的本地路徑。這樣通過掛載的方式,您的代碼就可以訪問PVC中的資料或模型。--image
指定推理服務的鏡像地址。
預期輸出:
service/lmdeploy-qwen-v1 created deployment.apps/lmdeploy-qwen-v1-custom-serving created INFO[0002] The Job lmdeploy-qwen has been submitted successfully INFO[0002] You can run `arena serve get lmdeploy-qwen --type custom-serving -n default` to check the job status
輸出結果表明推理服務已成功部署。
執行下列命令,查看推理服務的詳細資料,並等待服務就緒。
arena serve get lmdeploy-qwen
預期輸出:
Name: lmdeploy-qwen Namespace: default Type: Custom Version: v1 Desired: 1 Available: 1 Age: 1m Address: 192.168.XX.XX Port: RESTFUL:8000 GPU: 1 Instances: NAME STATUS AGE READY RESTARTS GPU NODE ---- ------ --- ----- -------- --- ---- lmdeploy-qwen-v1-custom-serving-8476b9dd8c-8b4d2 Running 1m 1/1 0 1 cn-beijing.172.16.XX.XX
輸出結果表明該推理服務的一個Pod(lmdeploy-qwen-v1-custom-serving-8476b9dd8c-8b4d2)正在穩定運行,且已準備好提供服務。
步驟三:驗證推理服務
執行以下命令,在推理服務與本地環境之間建立連接埠轉寄。
重要請注意kubectl port-forward建立的連接埠轉寄不具備生產層級的可靠性、安全性和擴充性,因此僅適用於開發和調試目的,不適合在生產環境使用。更多關於Kubernetes叢集內生產可用的網路方案的資訊,請參見Ingress概述。
kubectl port-forward svc/lmdeploy-qwen-v1 8000:8000
預期輸出:
Forwarding from 127.0.0.1:8000 -> 8000 Forwarding from [::1]:8000 -> 8000
執行以下命令,向模型推理服務發送一條模型推理請求。
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen", "messages": [{"role": "user", "content": "測試一下"}], "max_tokens": 10, "temperature": 0.7, "top_p": 0.9, "seed": 10}'
預期輸出:
{"id":"1","object":"chat.completion","created":1719833349,"model":"qwen","choices":[{"index":0,"message":{"role":"assistant","content":"好的,請問您有什麼測試需求或者問題嗎?"},"logprobs":null,"finish_reason":"length"}],"usage":{"prompt_tokens":21,"total_tokens":32,"completion_tokens":11}}
輸出結果表明模型可以根據給定的輸入(在這個例子中是一條測試訊息)產生相應的回複。
(可選)步驟四:清理環境
如果不再使用已建立的資源,請及時清理。
執行以下命令,刪除已部署的模型推理服務。
arena serve del lmdeploy-qwen
執行以下命令,刪除已建立的PV和PVC。
kubectl delete pvc llm-model kubectl delete pv llm-model