ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

Platform For AI:ChatLLM WebUIのリリースノート

最終更新日:Sep 27, 2024

このトピックでは、ChatLLM Web User Interface (WebUI) のリリースノートについて説明します。

重要なバージョン

日付	イメージバージョン	組み込みライブラリバージョン	説明
2024.6.21	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag: chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag: chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade	トーチ: 2.3.0 トーチビジョン: 0.18.0 トランスフォーマー: 4.41.2 vLLM: 0.5.0.post1 vllm-フラッシュ-attn: 2.5.9 ブレード: 0.7.0	Rerankモデルの展開がサポートされています。埋め込み、再ランク、LLMモデルの同時または個別の展開がサポートされています。 Transformersバックエンドは、Deepseek-V2、Yi1.5、およびQwen2をサポートします。 Qwen1.5のモデルタイプはQwen1.5に変更されます。 vLLMバックエンドはQwen2をサポートします。 BladeLLMバックエンドはLlama3とQwen2をサポートします。 HuggingFaceバックエンドはバッチ入力をサポートしています。 BladeLLMバックエンドはOpenAI Chatをサポートします。 BladeLLM Metricsへのアクセスは固定されています。 TransformersバックエンドはFP8モデルの展開をサポートします。 Transformersバックエンドは、AWQ、HQQ、Quantoの複数の量子化ツールキットをサポートしています。 vLLMバックエンドはFP8をサポートします。 vLLMおよびBlade推論パラメータはストップワードをサポートしています。 TransformersバックエンドはH20グラフィックカードをサポートしています。
2024.4.30	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade	トーチ: 2.3.0 トーチビジョン: 0.18.0 トランスフォーマー: 4.40.2 vllm: 0.4.2 ブレード: 0.5.1	埋め込みモデルの展開がサポートされています。 vLLMバックエンドはToken Usage returnをサポートしています。 Sentence-Transformersモデルの展開がサポートされています。 Transformersバックエンドは、yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3、gemma-1.1-2/7Bのモデルをサポートしています。 vLLMバックエンドは、yi-9B、qwen2-moe、SeaLLM、llama3、およびphi-3のモデルをサポートしています。 Bladeバックエンドはqwen1.5とSeaLLMをサポートします。 LLMと埋め込みのマルチモデル展開がサポートされています。 Transformersバックエンドはflash-attnイメージをリリースします。 vLLMバックエンドはflash-attnイメージをリリースします。
2024.3.28	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade	トーチ: 2.1.2 トーチビジョン: 0.16.2 トランスフォーマー: 4.38.2 Vllm: 0.3.3 ブレード: 0.4.8	blad推論バックエンドが追加され、1つのサーバーと量子化に対して複数のGPUをサポートします。 Transformersバックエンドは、トークナイザーのチャットテンプレートテンプレートに基づいて推論を実行します。 HFバックエンドはマルチLoRA推論をサポートします。ブレードは量子化モデルの展開をサポートします。ブレードは自動モデル分割をサポートします。 TransformersバックエンドはDeepSeekとGemmaをサポートしています。 vLLMバックエンドはDeepseekとGemmaをサポートしています。 Bladeバックエンドはqwen1.5およびyiモデルをサポートします。 vLLMおよびBladeイメージは、/metricsアクセスを有効にします。 Transformersバックエンドは、ストリーミング出力のトークン統計をサポートします。
2024.2.22	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm	トーチ: 2.1.2 トーチビジョン: 0.16.0 トランスフォーマー: 4.37.2 vLLM: 0.3.0	vLLMは、推論中のすべての推論パラメーターの変更をサポートします。 vLLMはマルチLoRAをサポートしています。 vLLMは、量子化モデルのデプロイをサポートします。 vLLMイメージは、LangChainデモに依存しなくなりました。 Transformers推論バックエンドは、qwen1.5およびqwen2モデルをサポートします。 vLLM推論バックエンドは、qwen-1.5モデルとqwen-2モデルをサポートします。
2024.1.23	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm	トーチ: 2.1.2 トーチビジョン: 0.16.2 トランスフォーマー: 4.37.2 vLLM: 0.2.6	バックエンドイメージは分割され、独立してコンパイルされ、公開されます。BladeLLMバックエンドが追加されます。標準のOpenAI APIがサポートされています。 Baichuanおよび他のモデルはパフォーマンス統計をサポートします。 yi-6b-chat、yi-34b-chat、secgptのモデルがサポートされています。 openai/v1/chat/completionsはchatglm3履歴形式をサポートしています。非同期ストリーミングモードが改善されました。 vLLMは、HuggingFaceとのモデル配置をサポートします。バックエンド呼び出しインターフェイスが改善されました。エラーログが改善されました。
2023.12.6	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1	トーチ: 2.0.1 トーチビジョン: 0.15.2 トランスフォーマー: 4.33.3 vLLM: 0.2.0	Huggingfaceバックエンドは、ミストラル、ゼファー、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4、qwen-1.8b-int8のモデルをサポートしています。 vLLMバックエンドは、QwenおよびChatGLM1/2/3モデルをサポートします。 HuggingFace推論バックエンドはフラッシュアテンションをサポートします。 ChatGLMモデルは、パフォーマンス統計指標をサポートします。コマンドラインパラメーター -- history-formatが追加され、ロールの指定がサポートされます。 LangChainはデモQwenモデルをサポートしています。 FastAPIストリーミングAPIの改善。
2023.9.13	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0	トーチ: 2.0.1 + cu117 トーチビジョン: 0.15.2 + cu117 トランスフォーマー: 4.33.3 vLLM: 0.2.0	vLLMとHuggingfaceの複数のバックエンドがサポートされています。 LangChainデモはChatLLMおよびLlama2モデルをサポートしています次のモデルがサポートされています: Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3、およびyi。 httpとwebscoketは会話ストリーミングモードをサポートします。出力トークンの数は、非ストリーミング出力モードに含まれる。すべてのモデルはマルチラウンド会話をサポートしています。会話履歴のエクスポートがサポートされています。システムプロンプト設定とテンプレートなしのプロンプトスプライシングがサポートされています。推論パラメーター設定がサポートされています。推論時間出力をサポートするログデバッグモードがサポートされています。デフォルトでは、vLLMバックエンドは複数のGPUのTP並列スキームをサポートしています。 Float32、Float16、Int8、Int4の精度でモデル展開がサポートされています。

関連ドキュメント

Elastic Algorithm Service (EAS) は、ChatLLMにscenairoベースの展開方法を提供し、いくつかのパラメーターを設定することで、一般的なオープンソースのラージランゲージモデル (LLM) サービスを展開できます。 LLMサービスをデプロイして呼び出す方法の詳細については、「LLMデプロイ」をご参照ください。