すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ChatLLM WebUIのリリースノート

最終更新日:Sep 27, 2024

このトピックでは、ChatLLM Web User Interface (WebUI) のリリースノートについて説明します。

重要なバージョン

日付

イメージバージョン

組み込みライブラリバージョン

説明

2024.6.21

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4

    Tag: chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm

    Tag: chat-llm-webui:3.0-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade

    Tag: chat-llm-webui:3.0-blade

  • トーチ: 2.3.0

  • トーチビジョン: 0.18.0

  • トランスフォーマー: 4.41.2

  • vLLM: 0.5.0.post1

  • vllm-フラッシュ-attn: 2.5.9

  • ブレード: 0.7.0

  • Rerankモデルの展開がサポートされています。

  • 埋め込み、再ランク、LLMモデルの同時または個別の展開がサポートされています。

  • Transformersバックエンドは、Deepseek-V2、Yi1.5、およびQwen2をサポートします。

  • Qwen1.5のモデルタイプはQwen1.5に変更されます。

  • vLLMバックエンドはQwen2をサポートします。

  • BladeLLMバックエンドはLlama3とQwen2をサポートします。

  • HuggingFaceバックエンドはバッチ入力をサポートしています。

  • BladeLLMバックエンドはOpenAI Chatをサポートします。

  • BladeLLM Metricsへのアクセスは固定されています。

  • TransformersバックエンドはFP8モデルの展開をサポートします。

  • Transformersバックエンドは、AWQ、HQQ、Quantoの複数の量子化ツールキットをサポートしています。

  • vLLMバックエンドはFP8をサポートします。

  • vLLMおよびBlade推論パラメータはストップワードをサポートしています。

  • TransformersバックエンドはH20グラフィックカードをサポートしています。

2024.4.30

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade

  • トーチ: 2.3.0

  • トーチビジョン: 0.18.0

  • トランスフォーマー: 4.40.2

  • vllm: 0.4.2

  • ブレード: 0.5.1

  • 埋め込みモデルの展開がサポートされています。

  • vLLMバックエンドはToken Usage returnをサポートしています。

  • Sentence-Transformersモデルの展開がサポートされています。

  • Transformersバックエンドは、yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3、gemma-1.1-2/7Bのモデルをサポートしています。

  • vLLMバックエンドは、yi-9B、qwen2-moe、SeaLLM、llama3、およびphi-3のモデルをサポートしています。

  • Bladeバックエンドはqwen1.5とSeaLLMをサポートします。

  • LLMと埋め込みのマルチモデル展開がサポートされています。

  • Transformersバックエンドはflash-attnイメージをリリースします。

  • vLLMバックエンドはflash-attnイメージをリリースします。

2024.3.28

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade

  • トーチ: 2.1.2

  • トーチビジョン: 0.16.2

  • トランスフォーマー: 4.38.2

  • Vllm: 0.3.3

  • ブレード: 0.4.8

  • blad推論バックエンドが追加され、1つのサーバーと量子化に対して複数のGPUをサポートします。

  • Transformersバックエンドは、トークナイザーのチャットテンプレートテンプレートに基づいて推論を実行します。

  • HFバックエンドはマルチLoRA推論をサポートします。

  • ブレードは量子化モデルの展開をサポートします。

  • ブレードは自動モデル分割をサポートします。

  • TransformersバックエンドはDeepSeekとGemmaをサポートしています。

  • vLLMバックエンドはDeepseekとGemmaをサポートしています。

  • Bladeバックエンドはqwen1.5およびyiモデルをサポートします。

  • vLLMおよびBladeイメージは、/metricsアクセスを有効にします。

  • Transformersバックエンドは、ストリーミング出力のトークン統計をサポートします。

2024.2.22

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm

  • トーチ: 2.1.2

  • トーチビジョン: 0.16.0

  • トランスフォーマー: 4.37.2

  • vLLM: 0.3.0

  • vLLMは、推論中のすべての推論パラメーターの変更をサポートします。

  • vLLMはマルチLoRAをサポートしています。

  • vLLMは、量子化モデルのデプロイをサポートします。

  • vLLMイメージは、LangChainデモに依存しなくなりました。

  • Transformers推論バックエンドは、qwen1.5およびqwen2モデルをサポートします。

  • vLLM推論バックエンドは、qwen-1.5モデルとqwen-2モデルをサポートします。

2024.1.23

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0

  • eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm

  • トーチ: 2.1.2

  • トーチビジョン: 0.16.2

  • トランスフォーマー: 4.37.2

  • vLLM: 0.2.6

  • バックエンドイメージは分割され、独立してコンパイルされ、公開されます。BladeLLMバックエンドが追加されます。

  • 標準のOpenAI APIがサポートされています。

  • Baichuanおよび他のモデルはパフォーマンス統計をサポートします。

  • yi-6b-chat、yi-34b-chat、secgptのモデルがサポートされています。

  • openai/v1/chat/completionsはchatglm3履歴形式をサポートしています。

  • 非同期ストリーミングモードが改善されました。

  • vLLMは、HuggingFaceとのモデル配置をサポートします。

  • バックエンド呼び出しインターフェイスが改善されました。

  • エラーログが改善されました。

2023.12.6

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1

Tag: chat-llm-webui:2.1

  • トーチ: 2.0.1

  • トーチビジョン: 0.15.2

  • トランスフォーマー: 4.33.3

  • vLLM: 0.2.0

  • Huggingfaceバックエンドは、ミストラル、ゼファー、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4、qwen-1.8b-int8のモデルをサポートしています。

  • vLLMバックエンドは、QwenおよびChatGLM1/2/3モデルをサポートします。

  • HuggingFace推論バックエンドはフラッシュアテンションをサポートします。

  • ChatGLMモデルは、パフォーマンス統計指標をサポートします。

  • コマンドラインパラメーター -- history-formatが追加され、ロールの指定がサポートされます。

  • LangChainはデモQwenモデルをサポートしています。

  • FastAPIストリーミングAPIの改善。

2023.9.13

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0

Tag: chat-llm-webui:2.0

  • トーチ: 2.0.1 + cu117

  • トーチビジョン: 0.15.2 + cu117

  • トランスフォーマー: 4.33.3

  • vLLM: 0.2.0

  • vLLMとHuggingfaceの複数のバックエンドがサポートされています。

  • LangChainデモはChatLLMおよびLlama2モデルをサポートしています

  • 次のモデルがサポートされています: Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3、およびyi。

  • httpとwebscoketは会話ストリーミングモードをサポートします。

  • 出力トークンの数は、非ストリーミング出力モードに含まれる。

  • すべてのモデルはマルチラウンド会話をサポートしています。

  • 会話履歴のエクスポートがサポートされています。

  • システムプロンプト設定とテンプレートなしのプロンプトスプライシングがサポートされています。

  • 推論パラメーター設定がサポートされています。

  • 推論時間出力をサポートするログデバッグモードがサポートされています。

  • デフォルトでは、vLLMバックエンドは複数のGPUのTP並列スキームをサポートしています。

  • Float32、Float16、Int8、Int4の精度でモデル展開がサポートされています。

関連ドキュメント

Elastic Algorithm Service (EAS) は、ChatLLMにscenairoベースの展開方法を提供し、いくつかのパラメーターを設定することで、一般的なオープンソースのラージランゲージモデル (LLM) サービスを展開できます。 LLMサービスをデプロイして呼び出す方法の詳細については、「LLMデプロイ」をご参照ください。