ACK集群实现弹性裸金属AI训练

更新时间:2025-02-08 02:43

本文介绍弹性裸金属AI训练的场景描述、解决问题、架构图及操作参考链接。

场景描述

本方案适用于AI图片训练场景,尤其是对性能要求苛刻、业务交付紧迫的场景。例如自动驾驶的模型训练(图片)等AI模型训练的场景。 本方案使用了SCC超级计算集群,采用弹性裸金属GPU服务器、并行文件系统CPFS、RDMA网络、阿里云容器服务Kubernetes版和飞天AI加速训练工具,提供性能稳定的训练环境,保障业务能力。

解决问题

  • 搭建AI图片训练基础环境。

  • 使用CPFS存储训练数据。

  • 使用飞天AI加速训练工具加速训练。

  • 使用Arena一键提交作业。

架构图

image
  • 本页导读 (1)
  • 场景描述
  • 解决问题
  • 架构图
文档反馈
phone 联系我们

立即和Alibaba Cloud在线服务人员进行交谈,获取您想了解的产品信息以及最新折扣。

alicare alicarealicarealicare