阿里云PAI为您提供了基于不同框架、不同CUDA版本的官方镜像,您可以在使用DLC、EAS、DSW时直接选择适用的镜像,即可快速基于官方镜像构建AI开发环境。本文为您介绍PAI预置的官方镜像能力和核心镜像列表。
认识官方镜像
阿里云PAI为您提供的官方镜像遵循一定的命名规则,您可以通过镜像名称了解到此镜像的基本信息。通常镜像命名会包含以下几个固定字段,建议您添加自定义镜像时使用统一的命名规则。
官方镜像名称示例 | 镜像名称解读 | 各个产品支持使用的镜像类型 |
|
| 请在官方镜像列表查看“使用子产品”的镜像标签,以确认子产品支持情况。 |
|
|
DSW/DLC官方镜像
阿里云PAI为您提供了基于不同机器学习框架的DSW/DLC官方镜像,您可以在PAI控制台的镜像AI资产页面中查看所有官方镜像列表。
Python
简介
Python 是一种简单易用、功能强大的高级编程语言,在机器学习中主要用于数据处理、模型开发和训练,它拥有丰富的库(如 NumPy、PyTorch、TensorFlow 等)和极高的开发效率。阿里云PAI提供两种类型的 Python镜像。
主要特性
支持 Ubuntu 22.04 和 Ubuntu 24.04 两个版本的 Ubuntu镜像。
支持阿里云的高性能网络RDMA。
支持不同版本的Python,涵盖 3.10 到 3.14。
支持不同版本的CUDA,涵盖 12.4 到 13.0。
内置常用开发工具如curl、git、wget、rclone、ping等。
pip和apt使用阿里云镜像源。
PyTorch
简介
阿里云PAI平台提供两种类型的PyTorch镜像。
基于阿里云PAI提供的 Python 镜像构建,在 Python镜像的基础上新增了PyTorch、TorchVision、TorchAudio 软件包,涵盖了Python镜像的所有特性,覆盖了2.4.0以上的pytorch官方发布的版本。
基于NGC提供的PyTorch镜像构建, 内置了常用开发工具,pip和apt使用阿里云镜像源。
标签说明
-accl:
预装 ACCL:阿里云高性能集合通信库的镜像,在NCCL的基础上可以为客户提供更高的通信性能。
基于ACCL版本的镜像进行开发训练时需使用预置的Python环境。如果需要使用Python虚拟环境,需要参考安装方法,在相应环境下配置ACCL库,才能使用ACCL的特性。
-ngc:
基于NGC的PyTorch镜像构建的镜像,标签中包含NGC镜像的版本信息,如
2.10.0-gpu-py312-cu130-ubuntu24.04-ngc25.11是基于NGC 25.11 版本的PyTorch镜像构建。关于NGC PyTorch镜像的特性可以参考 NVIDIA 官方文档。
Data-Juicer
简介
Data-Juicer 是一个面向数据清洗与预处理的分布式框架,底层依托于Ray的分布式能力,广泛用于大模型训练前的数据质量提升、多模态数据融合等场景。阿里云 PAI 提供两种类型的 Data-Juicer 镜像,方便用户在 CPU 或 GPU 环境中快速搭建数据处理流水线并运行分布式数据作业。镜像内置的 Data-Juicer 包含全套数据处理器、质量评估工具与可视化分析等默认能力。
CPU 版镜像:基于 PAI 的 CPU 基础镜像构建,适用于纯 CPU 的大规模数据清洗、文本处理等简单的处理任务。
GPU 版镜像:基于 PAI 的 CUDA 基础镜像构建,适用于需要 GPU 加速的模型推理、质量评分等数据处理任务。
主要特性
支持 Ubuntu 22.04的基础镜像。
支持阿里云高性能网络 RDMA,适用于高吞吐、低时延的分布式数据加载与处理场景。
内置 Data-Juicer 运行环境(含全套处理器),可用于快速启动数据处理任务并通过Ray Dashboard进行分析与监控。
支持 CPU / GPU 异构资源调度,满足数据清洗、质量评估、数据生成等多模态数据相关的多样化工作负载需求。
pip 和 apt 默认使用阿里云镜像源,提升依赖安装速度与稳定性。
Responsible-AI-Develop
简介
Responsible AI 是一套贯穿人工智能模型全生命周期的核心原则与实践方法,旨在确保 AI 系统在开发、训练、微调、评估和部署等各环节中具备安全性、可靠性、公平性、透明性和合规性,是企业构建可信 AI、规避风险、赢得用户信任的关键保障。阿里云 PAI 为支持 Responsible AI 实践,提供两类基础镜像:
CPU 版镜像:基于Ubuntu官方镜像构建,适用于通用CPU计算场景,集成 Responsible AI 所需的工具链。
GPU 版镜像:基于CUDA官方镜像构建,面向高性能GPU场景,集成 Responsible AI 所需的工具链。
主要特性
1. 支持 Ubuntu 22.04 版本的 Ubuntu镜像。
2. 支持不同版本的Python,涵盖3.11到3.14。
3. 支持CUDA版本11.8。
4. 内置Responsible AI可视化分析工具,提供交互式仪表盘,支持模型公平性、错误分析等多维度分析,帮助开发者直观识别潜在偏见和错误。
5. 支持差分隐私训练,在模型训练过程中注入可控噪声,防止敏感数据泄露,满足数据合规与隐私保护要求。
6. 内置RAI模型加密SDK:集成 RAI_SAM_SDK,支持大模型分片加密存储与授权解密推理流程。
Ray
简介
Ray 是一个面向分布式计算的高性能框架,广泛用于大规模机器学习训练、超参数搜索、强化学习以及在线推理等场景。阿里云 PAI 提供两种类型的 Ray 镜像,方便用户在 CPU 或 GPU 环境中快速搭建 Ray 集群并运行分布式作业。镜像内置的 Ray 依赖采用 ray[default] 方式安装,包含 Ray Dashboard、常用运行时组件等默认能力。
CPU 版镜像:基于 PAI 的 CPU 基础镜像构建,适用于纯 CPU 的分布式计算与数据处理任务。
GPU 版镜像:基于 PAI 的 CUDA 基础镜像构建,适用于需要 GPU 加速的训练、推理与大规模并行计算任务。
主要特性
支持 ubuntu 22.04 和 ubuntu 24.04 两个版本的基础镜像。
支持阿里云高性能网络 RDMA,适用于高吞吐、低时延的分布式通信场景。
内置 Ray 运行环境(含常用组件),可用于快速启动 Ray Head/Worker 并运行任务。
支持 CPU / GPU 异构资源调度,满足训练、数据处理与推理等多样化工作负载需求。
pip 和 apt 默认使用阿里云镜像源,提升依赖安装速度与稳定性。
ModelScope
简介
ModelScope Library目前支持模型和数据集的获取和管理,以及基于PyTorch、TensorFlow等学习框架基础上进行模型训练、推理, 在Python 3.8+、PyTorch 1.11+、TensorFlow上测试可运行。ModelScope为您提供了官方镜像,可以跳过所有的环境安装和配置,直接使用,更多内容请参见ModelScope官方镜像。
TorchEasyRec
简介
TorchEasyRec 是一款易用的推荐系统深度学习框架,覆盖召回(Matching)、排序(Ranking)、多任务学习与生成式推荐等常见场景。通过简单配置与便捷的自定义扩展能力,可加速高性能推荐模型的开发与落地。
阿里云PAI提供官方的TorchEasyRec镜像,预装了pytorch、torchrec、fbgemm、tensort 等依赖。镜像提供两种类型:
GPU 版本:基于Ubuntu 22.04 构建,支持 CUDA 加速训练,适用于大规模推荐模型的高性能训练场景(建议)。
CPU 版本:基于Ubuntu 22.04 构建,适用于开发调试、小规模训练场景(注:部分Op只包含GPU版本)。
TensorFlow
框架版本 | CUDA版本(仅GPU机型) | 操作系统 |
|
|
|
DeepRec
框架版本 | CUDA版本(仅GPU机型) | 操作系统 |
| CUDA 11.4 | Ubuntu 18.04 |
XGBoost
框架版本 | CUDA版本(仅GPU机型) | 操作系统 |
XGBoost 1.6.0 | 不涉及,仅支持CPU机型 | Ubuntu 18.04 |
EAS官方镜像
阿里云PAI为您提供了基于不同机器学习框架的EAS官方镜像,您可以在PAI控制台的镜像AI资产页面中查看所有官方镜像列表。
TritonServer
简介
Triton Inference Server(通常称为 Triton Server)是由 NVIDIA 开发的一款高性能推理服务器,旨在简化和加速机器学习模型的部署和推理过程。它支持多种深度学习框架(例如 TensorFlow、PyTorch、ONNX Runtime 等),并提供了一致的接口来处理不同的模型和数据类型。
主要特性
多框架支持:Triton Server 支持多种深度学习框架和模型格式,使得用户可以在一个统一的平台上部署不同类型的模型。
高吞吐量和低延迟:Triton 通过支持批处理和并行推理来提高推理性能。同时,Triton 还支持 GPU 加速,能够充分利用 NVIDIA GPU 的计算能力。
动态模型管理:Triton 允许动态加载和卸载模型,用户可以根据需要灵活管理模型版本,支持 A/B 测试和模型更新。
简单的 API 和可扩展性:Triton 提供了 REST 和 GRPC 接口,使得与其他系统的集成变得方便。此外,Triton 还可以与 Kubernetes 等容器编排系统进行无缝集成,从而实现大规模的推理服务部署。
支持异构硬件:除了 NVIDIA GPU,Triton 还可以在 CPU 和其他加速器上执行,支持在不同硬件和平台上的部署。
自定义后处理:用户可以根据需要对推理结果进行自定义处理,以适应特定的应用场景。
ComfyUI
简介
ComfyUI 是一个基于节点(Node-based)的图形用户界面工具,专为运行和定制 Stable Diffusion 等扩散模型(Diffusion Models)而设计。它通过可视化工作流(Workflow)让用户以拖拽方式构建图像生成流程,无需编写代码即可灵活控制生成逻辑,同时支持高度模块化和可复用的提示工程与模型组合。
主要特性
节点式工作流:将文本编码、采样器、模型加载、图像后处理等步骤拆分为独立节点,用户可自由连接组合,实现精细控制。
高效资源管理:仅加载当前流程所需模型,显存占用更低,支持批量生成与复杂流程优化。
高度可扩展:支持自定义节点插件,社区生态丰富(如 ControlNet、LoRA、Upscale 等),易于集成新模型或功能。
工作流可保存/共享:整个生成流程可导出为 JSON 文件,便于复现、协作或部署到其他环境。
PAI-RAG
简介
PAI-RAG 是阿里云人工智能平台 PAI 推出的企业级检索增强生成(RAG)对话系统解决方案,基于 PAI-EAS(模型在线服务)提供开箱即用的 RAG 能力。它深度融合 LLM 与知识检索技术,支持通过场景化部署快速构建私有知识问答、智能客服等应用,并提供开源模块化框架(GitHub: aigc-apps/PAI-RAG)供开发者灵活定制。
主要特性
多向量库支持:原生适配 Elasticsearch、Hologres、Tablestore、Milvus 等主流向量数据库,满足不同规模企业需求。
联网搜索增强:支持配置实时网络检索能力,突破模型预训练数据时效限制,提升答案准确性与时效性。
灵活部署与集成:提供 WebUI 可视化界面、RESTful API 及 OpenAI 兼容接口,便于快速集成至现有业务系统。
知识库全生命周期管理:支持通过 WebUI 或 OSS 上传/管理文档,提供切片、向量化、版本更新等一站式知识库运维能力。
vLLM
简介
vLLM 是开源大语言模型(LLM)推理与服务引擎,旨在高效部署和运行各类开源大模型。通过内存管理与调度技术,在保证低延迟的同时显著提升吞吐量,是主流的 LLM 推理框架。
主要特性
PagedAttention:核心创新技术,借鉴操作系统分页机制动态管理 KV Cache,消除显存碎片,使显存利用率提升数倍。
连续批处理(Continuous Batching):动态合并不同长度的请求进行并行解码,大幅提升 GPU 利用率与吞吐量。
高吞吐低延迟:在相同硬件下支持更高并发,适合高流量生产环境部署。
易用性强:提供简洁 Python API 与 OpenAI 兼容接口,可快速集成至现有应用。
生态丰富:原生支持 LoRA 微调推理、多模态模型、工具调用(Function Calling)等高级功能。
EasyAnimate
简介
EasyAnimate 是阿里云 PAI基于 Diffusion Transformer(DiT)架构自主研发的端到端高清长视频生成框架。支持通过文本或图像快速生成高质量视频(文生视频/图生视频),并提供从数据预处理、VAE 训练到 DiT 推理的完整解决方案 。
主要特性
高分辨率长视频生成:支持生成 1024×1024 分辨率、时长可达 6 秒及以上的连贯视频。
多模态输入:同时支持文本提示词(text-to-video)和图像输入(image-to-video)生成动态视频。
完整训练体系:提供 VAE、DiT 基础模型及 LoRA 微调的端到端训练能力,便于用户定制化开发。
工业级部署友好:作为 PAI 推理服务的官方支持方案,可无缝集成至云上推理平台,适用于生产环境。
Kohya
简介
Kohya是 Stable Diffusion 微调训练脚本所衍生的生态工具集。基于脚本封装的 Gradio 图形界面版本极大降低了 LoRA、DreamBooth 等模型微调的使用门槛 。
主要特性
多训练方法支持:原生支持 LoRA、DreamBooth、全参数微调(Fine-tuning)以及 SDXL 模型训练。
图形化操作界面:提供直观的 Web UI(基于 Gradio),用户可通过表单配置参数,无需编写命令行。
跨平台兼容:主要面向 Windows 设计,同时也支持 Linux 和 macOS 环境。
全流程工具链:集成数据预处理、自动打标(captioning)、训练监控与模型导出等环节,覆盖微调训练完整生命周期。
开源与社区活跃:项目完全开源,社区持续维护并适配主流推理框架(如 Stable Diffusion WebUI),便于训练成果直接部署使用。
Stable-Diffusion-WebUI
简介
Stable-Diffusion-WebUI是开源图形化界面工具,用于本地部署和运行 Stable Diffusion 系列模型。大大降低了文生图、图生图等生成式 AI 的使用门槛。
主要特性
多模态生成:支持文生图(txt2img)、图生图(img2img)、内补绘制(inpainting)、外补绘制(outpainting)等主流生成模式。
丰富的扩展生态:内置插件系统,支持 ControlNet、LoRA、T2I-Adapter 等主流扩展,灵活增强生成控制能力。
训练与微调集成:提供 DreamBooth、LoRA、Textual Inversion 等模型微调功能,支持用户定制专属模型。
跨平台部署:支持 Windows、Linux、macOS 及 Google Colab,适配 CPU/GPU(NVIDIA/AMD)多种硬件环境。
用户友好:基于 Gradio 构建 Web 界面,参数可视化配置,适合从新手到专业开发者的全阶段用户。
CosyVoice-frontend/CosyVoice-backend
CosyVoice是新一代高保真语音合成模型,具备语音克隆功能,仅需30秒以内的Prompt音频即可克隆目标音色,支持跨语种复刻。适用于客服对话、有声书朗读、短视频配音等多种场景。Frontend/Backend分离版本提供较高性能。Backend实例承载了全链路80%的算力,通过无损加速技术,可以使一个Backend实例承接8个Frontend实例的流量,从而提升吞吐量,并降低25%的延迟。
CosyVoice-WebUI
简介
CosyVoice是新一代高保真语音合成模型,具备语音克隆功能,仅需30秒以内的Prompt音频即可克隆目标音色,支持跨语种复刻。适用于客服对话、有声书朗读、短视频配音等多种场景。阿里云PAI-EAS基于该模型封装并集成了可视化WebUI界面,可快速部署云端语音推理服务。
主要特性
零样本语音克隆:仅需 3~10 秒参考音频即可复刻目标音色,实现个性化语音生成。
多语言与跨语言合成:支持中文、英文、日语、韩语等多种语言,并可跨语言保持音色一致性。
情感与细粒度控制:通过自然语言描述精准控制情感、笑声、呼吸声等语音细节。
高度拟人化:在语调、韵律、停顿等维度接近真人发音,显著优于传统 TTS 技术。
实时流式合成:支持文本到语音的低延迟流式输出,适用于实时交互场景。
全栈工具链:提供从推理、训练到部署的完整能力,便于工业级应用集成。
SGLang
简介
SGLang(Structured Generation Language)是一个高性能大语言模型推理与服务框架。它采用“前端语言 + 后端运行时”协同设计:前端提供结构化生成编程语言,用于编写可控的生成逻辑;后端是优化的推理引擎(SGLang Runtime),支持低延迟、高吞吐的模型服务 。
主要特性
结构化可控生成:原生支持通过 JSON Schema、正则表达式等约束精确控制输出格式,解决传统 Prompt 工程的表达力局限。
高性能推理:采用 RadixAttention、Radix Cache 等创新优化技术,在吞吐量上相比主流方案提升 3–5 倍。
多模态支持:同时适配纯文本大模型(LLM)和视觉语言模型(VLM),支持图像、视频等多模态输入。
灵活易集成:提供简洁的 Python API,可替代 OpenAI API 用于复杂提示工作流,降低开发门槛。
TensorFlow-Serving
简介
TensorFlow Serving 是高性能开源机器学习模型服务系统。作为 TensorFlow Extended(TFX)生态系统的核心组件,它可将训练完成的 TensorFlow 模型(SavedModel 格式)快速部署为在线推理服务,并通过 gRPC 和 RESTful API 对外提供调用接口。
主要特性
模型版本管理:支持多版本模型并行加载与无缝热更新,便于灰度发布和回滚。
高性能推理:针对生产环境优化的调度与批处理机制,保障低延迟、高吞吐的服务能力。
开箱即用集成:原生支持 TensorFlow SavedModel 格式,无需额外转换即可部署。
灵活扩展架构:提供可插拔的 Servable、Source、Manager 等组件,支持自定义加载逻辑与服务策略。
多协议支持:同时提供 gRPC(高性能)和 HTTP/REST(易集成)两种访问接口,适配不同客户端需求。
核心镜像列表
灵骏智算资源(Serverless版)适用的镜像
镜像名称 | 框架 | 机型 | CUDA | 操作系统 | 地区 | 开发语言&版本 |
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 华北6(乌兰察布) | Python 3.10 |
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 华北6(乌兰察布) | Python 3.10 |
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04 |
| GPU | 12.1 | ubuntu 22.04 | 华北6(乌兰察布) | Python 3.10 |
AIGC相关镜像
镜像名称 | 框架 | 机型 | CUDA | 操作系统 | 支持地区 | 开发语言&版本 |
stable-diffusion-webui:4.2 | StableDiffusionWebUI 4.2 | GPU | 12.4 | ubuntu 22.04 |
| Python 3.10 |
stable-diffusion-webui:4.1 | StableDiffusionWebUI 4.1 | GPU | 12.4 | ubuntu 22.04 | Python 3.10 |