全部产品

人工智能平台 PAI：ChatLLM-WebUI版本发布详情

更新时间：Sep 20, 2024

本文为您介绍ChatLLM-WebUI的重要版本发布信息。

重要版本发布信息

日期	镜像版本	内置库版本	更新内容
2024.6.21	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag：chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag：chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade	Torch：2.3.0 Torchvision：0.18.0 Transformers：4.41.2 vLLM：0.5.0.post1 vllm-flash-attn：2.5.9 Blade：0.7.0	支持Rerank模型部署。支持Embedding、Rerank、LLM多模型同时或单独部署。 Transformers后端支持Deepseek-V2、Yi1.5和Qwen2。更改Qwen1.5的model type为qwen1.5。 vLLM后端支持Qwen2。 BladeLLM后端支持Llama3和Qwen2。 HuggingFace后端支持batch输入。 BladeLLM后端支持OpenAI Chat。 BladeLLM Metrics访问修正。 Transformers后端支持FP8模型部署。 Transformers后端支持多量化工具：AWQ、HQQ和Quanto等。 vLLM后端支持FP8。 vLLM&Blade推理参数支持设置stop words。 Transformers后端适配H20显卡。
2024.4.30	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade	Torch：2.3.0 Torchvision：0.18.0 Transformers：4.40.2 vllm：0.4.2 Blade：0.5.1	支持Embedding模型部署。 vLLM后端支持Token Usage返回。支持Sentence-Transformers模型部署。 Transformers后端支持yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3以及gemma-1.1-2/7B。 vLLM后端支持yi-9B、qwen2-moe、SeaLLM、llama3以及phi-3。 Blade后端支持qwen1.5和SeaLLM。支持LLM与Embedding多模型部署。 Transformers后端发布flash-attn镜像。 vLLM后端发布flash-attn镜像。
2024.3.28	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade	Torch：2.1.2 Torchvision：0.16.2 Transformers：4.38.2 Vllm：0.3.3 Blade：0.4.8	添加blad推理后端：支持单机多卡和量化配置。 Transformers后端基于tokenizer chat template模板做推理。 HF后端已支持Multi-LoRA推理。 Blade支持量化模型部署。 Blade自动拆分模型。 Transformers后端支持Deepseek和Gemma。 vLLM后端支持Deepseek和Gemma。 Blade后端支持qwen1.5和yi模型。 vLLM和Blade镜像开放/metrics访问。 Transformers后端流式返回支持Token统计。
2024.2.22	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.1-vllm	Torch：2.1.2 Torchvision：0.16.0 Transformers：4.37.2 vLLM：0.3.0	vLLM扩展参数配置：支持推理时更改vLLM所有推理参数。 vLLM支持Multi-LoRA。 vLLM支持量化模型部署。 vLLM镜像不依赖LangChain演示。 Transformers推理后端支持qwen1.5和qwen2模型。 vLLM推理后端支持qwen-1.5和qwen-2模型。
2024.1.23	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0-vllm	Torch：2.1.2 Torchvision：0.16.2 Transformers：4.37.2 vLLM：0.2.6	拆分后端镜像，后端独立编译&发布：新添加BladeLLM后端。支持标准的OpenAI API。 Baichuan等模型支持性能统计指标。支持yi-6b-chat、yi-34b-chat以及secgpt等模型。 openai/v1/chat/completions适配chatglm3 history-format。异步流式优化。 vLLM支持模型与HuggingFace拉齐。后端调用接口优化。完善报错日志。
2023.12.6	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1	Torch：2.0.1 Torchvision：0.15.2 Transformers：4.33.3 vLLM：0.2.0	Huggingface后端支持mistral、zephyr、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4和qwen-1.8b-int8模型。 vLLM后端支持Qwen和ChatGLM1/2/3模型。 Huggingface推理后端支持flash attention。 ChatGLM系列模型支持性能统计指标。添加命令行参数--history-format支持设置角色。 LangChain支持演示Qwen模型。优化fastapi流式访问接口。
2023.9.13	eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0	Torch：2.0.1+cu117 Torchvision：0.15.2+cu117 Transformers：4.33.3 vLLM：0.2.0	支持多后端：vLLM和Huggingface; 支持LangChain演示ChatLLM与Llama2模型支持Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3以及yi等模型。添加http和webscoket支持对话流式。非流式返回结果包含生成Token数。所有模型支持多轮对话。支持对话记录导出。支持System Prompt设置及无模板输入Prompt拼接。推理参数可配置支持日志Debug模式：支持推理时间输出 vLLM后端单机多卡默认支持TP并行方案。支持Float32、Float16、Int8以及Int4等精度的模型部署。

相关文档

EAS为ChatLLM提供了场景化部署方式，您只需配置几个参数，即可轻松部署流行的开源LLM大语言模型服务应用。关于部署和调用LLM大语言模型服务的更详细内容介绍，请参见LLM大语言模型部署。