ack-arena

更新时间:2025-03-17 02:59

ack-arena组件是云原生AI套件提供的AI作业生命周期管理工具集,对AI生产过程中的主要工作环节进行抽象和标准化操作,以降低底层资源和环境管理的复杂度以及提交和运行AI任务的门槛。本文介绍ack-arena组件的基础信息、使用说明和变更记录。

组件说明

云原生AI套件将数据准备与管理、模型开发构建、模型训练、模型评测、模型推理服务上线运维等AI生产过程的主要工作环节进行抽象,并通过命令行工具Arena来实现管理。Arena完全屏蔽底层资源和环境管理、任务调度、GPU分配和监控的复杂性,且兼容主流AI框架和工具,包括Tensorflow、Pytorch、Horovod、Spark、JupyterLab、TF-Serving、Triton等。Arena还支持Golang、Java、Python SDK,便于您二次开发。

ack-arena组件对开源Arena的操作进行简化,让您可以在容器服务控制台一键安装Arena,快速配置并使用Arena客户端。

使用说明

ack-arena组件仅支持在ACK Pro版集群、ACK Serverless集群Pro版以及ACK Edge集群Pro版中安装,且集群版本需为1.18及以上。关于ack-arena组件的安装和使用,请参见配置Arena客户端

变更说明

2025年03月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.14.2

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.2-aliyun-d497232

  • PyTorchJob中的worker pod的init-container资源申请的requests和limits设置为相同值

2025年03月10日

此次升级不会对业务造成影响。

2025年02月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.14.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.1-aliyun-19abf19

  • 修复device不支持k8s resource quantity问题

  • 修复PyTorchJob不支持backoff limit问题

  • 启用GPU共享调度时将不会设置环境变量NVIDIA_VISIBLE_DEVICES

2025年02月24日

此次升级不会对业务造成影响。

2025年01月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.13.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.1-aliyun-ce9c5f3

  • tf-operator支持linux/arm64架构镜像

  • pytorch-operator支持linux/arm64架构镜像

  • cron-operator支持linux/arm64架构镜像

  • et-operator支持linux/arm64架构镜像

2025年01月13日

此次升级不会对业务造成影响。

2024年12月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.13.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.0-aliyun-f098f1a

  • PyTorchJob支持torchrun

  • 查询PyTorchJob信息时避免list job和statefulset操作

2024年12月23日

此次升级不会对业务造成影响。

2024年11月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.12.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.0-aliyun.0

  • 支持提交RayJob

  • 支持提交分布式推理作业

2024年11月11日

此次升级不会对业务造成影响。

0.12.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.1-aliyun.0

  • 提交MPIJob支持通用类型设备

  • tf-operator修复clean pod policy相关问题

  • 修复etjob使用本地logging目录时的渲染问题

  • 修复cron-operator清理作业失败的问题

2024年11月25日

此次升级不会对业务造成影响。

2024年10月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.10.1

registry-cn-hangzhou.ack.aliyuncs.com/acs/arena-deploy-manager:0.10.1-aliyun.0

  • 支持多种类型设备

  • TFJob支持successPolicy

  • 修复提交SparkApplicationi失败的问题

2024年10月14日

此次升级不会对业务造成影响。

2024年04月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.14

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.14-adb43b8

新增模型管理功能。

2024年04月11日

此次升级不会对业务造成影响。

2024年03月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.13

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.13-5ac396c

  • triton推理服务新增backend参数。

  • 支持更新kserve推理服务挂载目录。

2024年03月18日

此次升级不会对业务造成影响。

2024年02月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.12

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.12-a707f81

  • 更新tritonserver基础镜像。

  • 兼容training-operator CRD。

2024年02月04日

此次升级不会对业务造成影响。

2023年11月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.11

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.11-ce87d10

  • 支持部署KServe推理服务。

  • 推理服务支持设置livenessProbe和readinessProbe。

2023年11月17日

此次升级不会对业务造成影响。

2023年08月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.10

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.10-4b5c18c

  • 支持提交etjob和deepspeedjob时创建SSH secret。

  • 默认移除et-operator secret权限,可手动开启。

2023年08月02日

此次升级不会对业务造成影响。

2023年06月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.9

registry.cn-beijing.aliyuncs.com/acs/arena-deploy-manager:0.9.9-ce4a78d

  • 新增训练任务类型DeepSpeed,支持DeepSpeed分布式训练。

  • 支持设置imagePullPolicy。

2023年06月29日

此次升级不会对业务造成影响。

2023年05月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.8

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

  • 新增支持通过SDK配置任务完成清理时间。

  • RBAC权限收敛。

2023年05月23日

此次升级不会对业务造成影响。

2023年04月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.7

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

新增支持为定时任务设置任务完成时间。

2023年04月11日

此次升级不会对业务造成影响。

0.9.6

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.6-b3c2c7f

  • 更新et-operator镜像。

  • 创建tfjob和pytorchjob时添加ownerReference。

2023年04月04日

此次升级不会对业务造成影响。

2023年03月

版本号

镜像地址

变更内容

变更时间

变更影响

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.5

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.5-c3948e2

  • Arena提交tfjob时,新增支持running-timeout、starting-timeout、ttl-after-finished。

  • Arena提交pytorchjob时,新增支持running-timeout、ttl-after-finished。

  • 新增支持jobsupervisor charts。

  • 升级JAVA SDK至1.0.4版本。

  • 修复gang pod label不规范的问题。

  • 更新tf-operator、pytorch-operator、et-operator镜像。

2023年03月16日

此次升级不会对业务造成影响。

  • 本页导读 (1)
  • 组件说明
  • 使用说明
  • 变更说明
  • 2025年03月
  • 2025年02月
  • 2025年01月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年04月
  • 2024年03月
  • 2024年02月
  • 2023年11月
  • 2023年08月
  • 2023年06月
  • 2023年05月
  • 2023年04月
  • 2023年03月
文档反馈
phone 联系我们

立即和Alibaba Cloud在线服务人员进行交谈,获取您想了解的产品信息以及最新折扣。

alicare alicarealicarealicare