全部产品
Search
文档中心

容器服务 Kubernetes 版 ACK:ack-ai-installer组件介绍与变更说明

更新时间:Nov 29, 2024

ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro版调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugin和cgpu-installer

ACK Pro版集群和ACK Edge集群Pro版的ACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro版中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。

变更说明

2024年11月

版本号

变更内容

变更时间

变更影响

1.11.1

发布cGPU 1.5.13版本,修复容器残留进程可能导致的小概率内核崩溃。

2024年11月19日

此次升级不会对业务造成影响。

1.10.1

发布cGPU 1.5.12版本,修复535等新版本驱动部分CUDA API显存隔离失败的问题。

2024年11月07日

此次升级不会对业务造成影响。

2024年09月

版本号

变更内容

变更时间

变更影响

1.9.16

  • cGPU为1.5.11版本。

  • 修改cGPU安装流程到init-container中。

2024年09月26日

此次升级不会对业务造成影响。

1.9.15

发布cGPU 1.5.11版本,修复解码相关问题。

2024年09月19日

此次升级不会对业务造成影响。

2024年08月

版本号

变更内容

变更时间

变更影响

1.9.14

  • 修复了一些MPS Daemon使用的问题。

  • 发布cGPU 1.5.10版本,增加了Policy 6用以做算力和显存的等比例切分。

2024年08月21日

此次升级不会对业务造成影响。

1.9.14

发布cGPU 1.5.9版本,增加了policy 6用以做算力和显存的等比例切分

2024年08月13日

此次升级不会对业务造成影响。

2024年05月

版本号

变更内容

变更时间

变更影响

1.9.11

发布cGPU 1.5.7版本,支持L系列GPU和550+版本GPU驱动。

2024年05月14日

此次升级不会对业务造成影响。

1.9.10

发布cGPU 1.5.7版本,修复cgpu policy set无效的问题。

2024年05月09日

此次升级不会对业务造成影响。

2024年01月

版本号

变更内容

变更时间

变更影响

1.8.8

发布cGPU 1.5.6版本,发布了新的cGPU License Server策略。

2024年01月04日

此次升级不会对业务造成影响。

2023年12月

版本号

变更内容

变更时间

变更影响

1.8.7

  • cGPU为1.5.5版本。

  • 支持MPS的共享GPU调度。

2023年12月20日

此次升级不会对业务造成影响。

2023年11月

版本号

变更内容

变更时间

变更影响

1.8.5

发布cGPU 1.5.5版本,修复cgpu-procfs触发的Kernel Panic问题。

2023年11月23日

此次升级不会对业务造成影响。

2023年08月

版本号

变更内容

变更时间

变更影响

1.8.2

  • cGPU为1.5.3版本。

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

2023年08月29日

此次升级不会对业务造成影响。

2023年07月

版本号

变更内容

变更时间

变更影响

1.7.7

  • 发布cGPU 1.5.3版本,

  • 修复nvidia-container-toolkit和nvidia-container-runtime-hook软连接错乱的问题。

  • 修复不兼容高版本驱动(470.182.03 、515.105.01、525.105.17及其之后发布的版本的驱动)的问题。

2023年07月04日

此次升级不会对业务造成影响。

2023年04月

版本号

变更内容

变更时间

变更影响

1.7.6

  • 发布cGPU 1.5.2版本,修复systemd cgroup权限错乱问题。

  • 解决cGPU在5XX以上驱动的兼容支持问题。

  • 解决cGPU对nvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

2023年04月26日

此次升级不会对业务造成影响。

1.7.5

发布cGPU 1.5.2版本。

2023年04月18日

此次升级不会对业务造成影响。