日付 | イメージバージョン | 組み込みライブラリバージョン | 説明 |
2024.6.21 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag: chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag: chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade
| トーチ: 2.3.0 トーチビジョン: 0.18.0 トランスフォーマー: 4.41.2 vLLM: 0.5.0.post1 vllm-フラッシュ-attn: 2.5.9 ブレード: 0.7.0
| Rerankモデルの展開がサポートされています。 埋め込み、再ランク、LLMモデルの同時または個別の展開がサポートされています。 Transformersバックエンドは、Deepseek-V2、Yi1.5、およびQwen2をサポートします。 Qwen1.5のモデルタイプはQwen1.5に変更されます。 vLLMバックエンドはQwen2をサポートします。 BladeLLMバックエンドはLlama3とQwen2をサポートします。 HuggingFaceバックエンドはバッチ入力をサポートしています。 BladeLLMバックエンドはOpenAI Chatをサポートします。 BladeLLM Metricsへのアクセスは固定されています。 TransformersバックエンドはFP8モデルの展開をサポートします。 Transformersバックエンドは、AWQ、HQQ、Quantoの複数の量子化ツールキットをサポートしています。 vLLMバックエンドはFP8をサポートします。 vLLMおよびBlade推論パラメータはストップワードをサポートしています。 TransformersバックエンドはH20グラフィックカードをサポートしています。
|
2024.4.30 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade
| トーチ: 2.3.0 トーチビジョン: 0.18.0 トランスフォーマー: 4.40.2 vllm: 0.4.2 ブレード: 0.5.1
| 埋め込みモデルの展開がサポートされています。 vLLMバックエンドはToken Usage returnをサポートしています。 Sentence-Transformersモデルの展開がサポートされています。 Transformersバックエンドは、yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3、gemma-1.1-2/7Bのモデルをサポートしています。 vLLMバックエンドは、yi-9B、qwen2-moe、SeaLLM、llama3、およびphi-3のモデルをサポートしています。 Bladeバックエンドはqwen1.5とSeaLLMをサポートします。 LLMと埋め込みのマルチモデル展開がサポートされています。 Transformersバックエンドはflash-attnイメージをリリースします。 vLLMバックエンドはflash-attnイメージをリリースします。
|
2024.3.28 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade
| トーチ: 2.1.2 トーチビジョン: 0.16.2 トランスフォーマー: 4.38.2 Vllm: 0.3.3 ブレード: 0.4.8
| blad推論バックエンドが追加され、1つのサーバーと量子化に対して複数のGPUをサポートします。 Transformersバックエンドは、トークナイザーのチャットテンプレートテンプレートに基づいて推論を実行します。 HFバックエンドはマルチLoRA推論をサポートします。 ブレードは量子化モデルの展開をサポートします。 ブレードは自動モデル分割をサポートします。 TransformersバックエンドはDeepSeekとGemmaをサポートしています。 vLLMバックエンドはDeepseekとGemmaをサポートしています。 Bladeバックエンドはqwen1.5およびyiモデルをサポートします。 vLLMおよびBladeイメージは、/metricsアクセスを有効にします。 Transformersバックエンドは、ストリーミング出力のトークン統計をサポートします。
|
2024.2.22 | | トーチ: 2.1.2 トーチビジョン: 0.16.0 トランスフォーマー: 4.37.2 vLLM: 0.3.0
| vLLMは、推論中のすべての推論パラメーターの変更をサポートします。 vLLMはマルチLoRAをサポートしています。 vLLMは、量子化モデルのデプロイをサポートします。 vLLMイメージは、LangChainデモに依存しなくなりました。 Transformers推論バックエンドは、qwen1.5およびqwen2モデルをサポートします。 vLLM推論バックエンドは、qwen-1.5モデルとqwen-2モデルをサポートします。
|
2024.1.23 | | トーチ: 2.1.2 トーチビジョン: 0.16.2 トランスフォーマー: 4.37.2 vLLM: 0.2.6
| バックエンドイメージは分割され、独立してコンパイルされ、公開されます。BladeLLMバックエンドが追加されます。 標準のOpenAI APIがサポートされています。 Baichuanおよび他のモデルはパフォーマンス統計をサポートします。 yi-6b-chat、yi-34b-chat、secgptのモデルがサポートされています。 openai/v1/chat/completionsはchatglm3履歴形式をサポートしています。 非同期ストリーミングモードが改善されました。 vLLMは、HuggingFaceとのモデル配置をサポートします。 バックエンド呼び出しインターフェイスが改善されました。 エラーログが改善されました。
|
2023.12.6 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1 | トーチ: 2.0.1 トーチビジョン: 0.15.2 トランスフォーマー: 4.33.3 vLLM: 0.2.0
| Huggingfaceバックエンドは、ミストラル、ゼファー、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4、qwen-1.8b-int8のモデルをサポートしています。 vLLMバックエンドは、QwenおよびChatGLM1/2/3モデルをサポートします。 HuggingFace推論バックエンドはフラッシュアテンションをサポートします。 ChatGLMモデルは、パフォーマンス統計指標をサポートします。 コマンドラインパラメーター -- history-formatが追加され、ロールの指定がサポートされます。 LangChainはデモQwenモデルをサポートしています。 FastAPIストリーミングAPIの改善。
|
2023.9.13 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0 | トーチ: 2.0.1 + cu117 トーチビジョン: 0.15.2 + cu117 トランスフォーマー: 4.33.3 vLLM: 0.2.0
| vLLMとHuggingfaceの複数のバックエンドがサポートされています。 LangChainデモはChatLLMおよびLlama2モデルをサポートしています 次のモデルがサポートされています: Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3、およびyi。 httpとwebscoketは会話ストリーミングモードをサポートします。 出力トークンの数は、非ストリーミング出力モードに含まれる。 すべてのモデルはマルチラウンド会話をサポートしています。 会話履歴のエクスポートがサポートされています。 システムプロンプト設定とテンプレートなしのプロンプトスプライシングがサポートされています。 推論パラメーター設定がサポートされています。 推論時間出力をサポートするログデバッグモードがサポートされています。 デフォルトでは、vLLMバックエンドは複数のGPUのTP並列スキームをサポートしています。 Float32、Float16、Int8、Int4の精度でモデル展開がサポートされています。
|