释放生成式AI的无限潜能

100 万免费令牌

降价88%

开始激活

ack-ai-installer组件介绍与变更说明

更新时间:2025-01-03 03:30

ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro版调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugin和cgpu-installer

ACK Pro版集群和ACK Edge集群Pro版的ACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro版中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。

变更说明

2025年01月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.12.0

  • 发布cGPU 1.5.15版本,支持cGPU容器化安装。

  • 收敛cgpu-installer容器privileged权限。

  • 增加在cGPU安装前做precheck校验。precheck失败会报CGPUInstallFailed的kubernetes event

2025年01月03日

此次升级不会对业务造成影响。

2024年11月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.11.1

发布cGPU 1.5.13版本,修复容器残留进程可能导致的小概率内核崩溃。

2024年11月19日

此次升级不会对业务造成影响。

1.10.1

发布cGPU 1.5.12版本,修复535等新版本驱动部分CUDA API显存隔离失败的问题。

2024年11月07日

此次升级不会对业务造成影响。

2024年09月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.16

  • cGPU为1.5.11版本。

  • 修改cGPU安装流程到init-container中。

2024年09月26日

此次升级不会对业务造成影响。

1.9.15

发布cGPU 1.5.11版本,修复解码相关问题。

2024年09月19日

此次升级不会对业务造成影响。

2024年08月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.14

  • 修复了一些MPS Daemon使用的问题。

  • 发布cGPU 1.5.10版本,增加了Policy 6用以做算力和显存的等比例切分。

2024年08月21日

此次升级不会对业务造成影响。

1.9.14

发布cGPU 1.5.9版本,增加了policy 6用以做算力和显存的等比例切分

2024年08月13日

此次升级不会对业务造成影响。

2024年05月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.11

发布cGPU 1.5.7版本,支持L系列GPU和550+版本GPU驱动。

2024年05月14日

此次升级不会对业务造成影响。

1.9.10

发布cGPU 1.5.7版本,修复cgpu policy set无效的问题。

2024年05月09日

此次升级不会对业务造成影响。

2024年01月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.8

发布cGPU 1.5.6版本,发布了新的cGPU License Server策略。

2024年01月04日

此次升级不会对业务造成影响。

2023年12月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.7

  • cGPU为1.5.5版本。

  • 支持MPS的共享GPU调度。

2023年12月20日

此次升级不会对业务造成影响。

2023年11月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.5

发布cGPU 1.5.5版本,修复cgpu-procfs触发的Kernel Panic问题。

2023年11月23日

此次升级不会对业务造成影响。

2023年08月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.2

  • cGPU为1.5.3版本。

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

2023年08月29日

此次升级不会对业务造成影响。

2023年07月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.7.7

  • 发布cGPU 1.5.3版本,

  • 修复nvidia-container-toolkit和nvidia-container-runtime-hook软连接错乱的问题。

  • 修复不兼容高版本驱动(470.182.03 、515.105.01、525.105.17及其之后发布的版本的驱动)的问题。

2023年07月04日

此次升级不会对业务造成影响。

2023年04月

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.7.6

  • 发布cGPU 1.5.2版本,修复systemd cgroup权限错乱问题。

  • 解决cGPU在5XX以上驱动的兼容支持问题。

  • 解决cGPU对nvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

2023年04月26日

此次升级不会对业务造成影响。

1.7.5

发布cGPU 1.5.2版本。

2023年04月18日

此次升级不会对业务造成影响。

  • 本页导读 (1)
  • 组件介绍
  • gpushare-device-plugin和cgpu-installer
  • gputopo-device-plugin
  • 使用说明
  • 变更说明
  • 2025年01月
  • 2024年11月
  • 2024年09月
  • 2024年08月
  • 2024年05月
  • 2024年01月
  • 2023年12月
  • 2023年11月
  • 2023年08月
  • 2023年07月
  • 2023年04月
文档反馈
phone 联系我们

立即和Alibaba Cloud在线服务人员进行交谈,获取您想了解的产品信息以及最新折扣。

alicare alicarealicarealicare