すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:TGIを使用してQwen推論サービスをACKにデプロイする

最終更新日:Nov 19, 2024

このトピックでは、Qwen1.5-4B-ChatモデルとA10 GPUを例として使用し、Hugging Faceのテキスト生成推論 (TGI) フレームワークを使用してContainer Service for Kubernetes (ACK) にQwen推論サービスをデプロイする方法を示します。

背景情報

Qwen1.5-4B-チャット

Qwen1.5-4B-Chatは、Transformerに基づいてAlibaba Cloudによって開発された40億パラメータモデルの大規模言語モデル (LLM) です。 このモデルは、さまざまなwebベースのテキスト、専門分野の本、およびコードをカバーする超大量のトレーニングデータに基づいてトレーニングされます。 詳細については、「Qwen GitHubリポジトリ」をご参照ください。

テキスト生成推論 (TGI)

TGIは、推論サービスとしてラージランゲージモデル (LLM) を展開するためのHugging Faceが提供するオープンソースツールです。 Flash AttentionPaged Attention、連続バッチ処理、Tensor並列処理など、さまざまな推論アクセラレーション機能を提供します。 詳細については、「TGI公式ドキュメント」をご参照ください。

前提条件

ステップ1: モデルデータの準備

このセクションでは、Qwen1.5-4B-Chatモデルを例として、Object Storage Service (OSS) からモデルをダウンロードしてアップロードする方法、およびACKクラスターに永続ボリューム (PV) と永続ボリュームクレーム (PVC) を作成する方法を示します。

File Storage NAS にモデルをアップロードする方法の詳細については、「静的にプロビジョニングされたNASボリュームのマウント」をご参照ください。

    1. モデルファイルをダウンロードします。

      1. 次のコマンドを実行してGitをインストールします。

        # Run yum install git or apt install git. 
        yum install git
      2. 次のコマンドを実行して、Git Large File Support (LFS) プラグインをインストールします。

        # Run yum install git-lfs or apt install git-lfs. 
        yum install git-lfs
      3. 次のコマンドを実行して、ModelScopeのQwen1.5-4B-Chatリポジトリをローカル環境に複製します。

        GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/qwen/Qwen1.5-4B-Chat.git
      4. 次のコマンドを実行してQwen1.5-4B-Chatディレクトリに移動し、LFSで管理されている大きなファイルをプルします。

        cd Qwen1.5-4B-Chat
        git lfs pull
    2. Qwen1.5-4B-ChatモデルファイルをOSSにアップロードします。

      1. OSSコンソールにログインし、作成したOSSバケットの名前を表示および記録します。

        OSSバケットの作成方法の詳細については、「バケットの作成」をご参照ください。

      2. ossutilをインストールして設定し、OSSリソースを管理します。 詳細については、「ossutilのインストール」をご参照ください。

      3. 次のコマンドを実行して、OSSにQwen1.5-4B-Chatという名前のディレクトリを作成します。

        ossutil mkdir oss://<Your-Bucket-Name>/Qwen1.5-4B-Chat
      4. 次のコマンドを実行して、モデルファイルをOSSにアップロードします。

        ossutil cp -r ./Qwen1.5-4B-Chat oss://<Your-Bucket-Name>/Qwen1.5-4B-Chat
    3. ターゲットクラスターでPVとPVCを設定します。 詳細については、「静的にプロビジョニングされたOSSボリュームのマウント」をご参照ください。

      • 次の表に、PVのパラメータを示します。

        項目

        説明

        PVタイプ

        OSS

        ボリューム名

        llm-モデル

        アクセス証明書

        OSSバケットへのアクセスに使用するAccessKey IDとAccessKey secretを指定します。

        バケットID

        作成したOSSバケットの名前を指定します。

        OSSパス

        /models/Qwen1.5-4B-Chatなど、モデルのパスを選択します。

      • 次の表に、PVCのパラメータを示します。

        項目

        説明

        PVCタイプ

        OSS

        ボリューム名

        llm-モデル

        割り当てモード

        [既存のボリューム] を選択します。

        既存のボリューム

        [既存のボリューム] ハイパーリンクをクリックし、作成したPVを選択します。

手順2: 推論サービスのデプロイ

重要

TGIは、V100やT4などの古いGPUモデルをサポートしていません。 推論サービスをA10またはGPUにデプロイし、アーキテクチャを更新する必要があります。

  1. 次のコマンドを実行して、Arenaを使用してカスタム推論サービスをデプロイします。

    推論サービスの名前はtgi-qwen-4bチャットで、バージョンはv1です。 サービスは1つのGPUを使用し、1つのレプリカを持ちます。 サービスの準備プローブが設定されます。 モデルは特別な種類のデータと見なされます。 したがって、-- dataパラメーターを設定して、コンテナー内の /model/Qwen1.5-4B-ChatディレクトリにモデルPVCをマウントします。

    arena serve custom \
        --name=tgi-qwen-4b-chat \
        --version=v1 \
        --gpus=1 \
        --replicas=1 \
        --restful-port=8000 \
        --readiness-probe-action="tcpSocket" \
        --readiness-probe-action-option="port: 8000" \
        --readiness-probe-option="initialDelaySeconds: 30" \
        --readiness-probe-option="periodSeconds: 30" \
        --image=ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/text-generation-inference:2.0.2-ubuntu22.04 \
        --data=llm-model:/model/Qwen1.5-4B-Chat \
        "text-generation-launcher --model-id /model/Qwen1.5-4B-Chat --num-shard 1 -p 8000"

    下表に、各パラメーターを説明します。

    パラメーター

    説明

    -- name

    推論サービスの名前。

    -- version

    推論サービスのバージョン。

    -- gpus

    各推論サービスレプリカのGPUの数。

    -- レプリカ

    推論サービスレプリカの数。

    -- 安らかポート

    公開する推論サービスのポート。

    -- 準備-プローブ-アクション

    準備プローブの接続タイプ。 有効な値: HttpGet、Exec、gRPC、およびTCPSocket。

    -- readiness-probe-action-option

    準備プローブの接続方法。

    -- readiness-probe-option

    準備完了プローブの設定。

    -- データ

    共有PVCをランタイム環境にマウントします。 値は、コロン (:) で区切られた2つの部分で構成されます。 コロンの左側にあるPVCの名前を指定します。 arena data listコマンドを実行して、クラスター内の既存のPVCのリストを照会できます。 コロンの右側にあるランタイム環境を指定します。 トレーニングデータまたはモデルのローカルパスを指定することもできます。 これにより、スクリプトは指定されたPVのデータまたはモデルにアクセスできます。

    -- イメージ

    推論サービスイメージのアドレス。

    期待される出力:

    service/tgi-qwen-4b-chat-v1 created
    deployment.apps/tgi-qwen-4b-chat-v1-custom-serving created
    INFO[0001] The Job tgi-qwen-4b-chat has been submitted successfully
    INFO[0001] You can run `arena serve get tgi-qwen-4b-chat --type custom-serving -n default` to check the job status

    出力は、推論サービスがデプロイされていることを示します。

  2. 次のコマンドを実行して、推論サービスの詳細を照会します。

    arena serve get tgi-qwen-4b-chat

    期待される出力:

    Name:       tgi-qwen-4b-chat
    Namespace:  default
    Type:       Custom
    Version:    v1
    Desired:    1
    Available:  1
    Age:        3m
    Address:    172.16.XX.XX
    Port:       RESTFUL:8000
    GPU:        1
    
    Instances:
      NAME                                                 STATUS   AGE  READY  RESTARTS  GPU  NODE
      ----                                                 ------   ---  -----  --------  ---  ----
      tgi-qwen-4b-chat-v1-custom-serving-67b58c9865-m89lq  Running  3m   1/1    0         1    cn-beijing.192.168.XX.XX

    出力は、ポッド (tgi-qwen-4b-chat-v1-custom-serving-67b58c9865-m89lq) が推論サービスで実行されており、サービスを提供する準備ができていることを示します。

手順3: 推論サービスの検証

  1. 次のコマンドを実行して、推論サービスとローカル環境間のポート転送を設定します。

    重要

    kubectl Port-forwardを使用して設定されたポート転送は、運用環境では信頼性、安全性、拡張性がありません。 開発とデバッグ用のみです。 本番環境では、このコマンドを使用してポート転送を設定しないでください。 ACKクラスターの運用に使用されるネットワークソリューションの詳細については、「Ingressの概要」をご参照ください。

    kubectl port-forward svc/tgi-qwen-4b-chat-v1 8000:8000

    期待される出力:

    Forwarding from 127.0.0.1:8000 -> 8000
    Forwarding from [::1]:8000 -> 8000
  2. 次のコマンドを実行して、推論サービスにリクエストを送信します。

    curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json"  -d '{"model": "/model/Qwen1.5-4B-Chat/", "messages": [{"role": "user", "content": "Test"}], "max_tokens": 10, "temperature": 0.7, "top_p": 0.9, "seed": 10}'

    期待される出力:

    {"id":"","object":"text_completion","created":1716274541,"model":"/model/Qwen1.5-4B-Chat","system_fingerprint":"2.0.2-sha-6073ece","choices":[{"index":0,"message":{"role":"assistant","content":"OK. What test do you want me to run?"},"logprobs":null,"finish_reason":"length"}],"usage":{"prompt_tokens":21,"completion_tokens":10,"total_tokens":31}}

    出力は、モデルが指定されたプロンプトに基づいて応答を生成できることを示します。 この例では、プロンプトはテスト要求です。

(オプション) ステップ4: 環境をクリアする

リソースが不要になった場合は、すぐに環境をクリアしてください。

  • 次のコマンドを実行して、推論サービスを削除します。

    arena serve delete tgi-qwen-4b-chat
  • 次のコマンドを実行して、PVとPVCを削除します。

    kubectl delete pvc llm-model
    kubectl delete pv llm-model