全部产品
Search
文档中心

文件存储 CPFS:CPFS智算版数据流动(公测)

更新时间:Dec 26, 2024

当您需要实现CPFS智算版文件系统与OSS Bucket之间的数据进行数据流动时,必须创建数据流动并为其创建数据流动任务,即可完成数据的高速传输。

功能介绍

CPFS智算版支持以下数据流动功能:

  • 账号级别的数据流动

    支持与同账号或跨账号OSS Bucket之间的数据进行数据流动。

  • 目录级别的数据流动

    您可以通过创建数据流动,建立从CPFS智算版文件系统任意子目录到OSS Bucket下任意prefix的映射,实现更细粒度的权限控制与更灵活的数据传输。

  • 数据的导入与导出

    支持通过创建批式任务或流式任务实现CPFS智算版文件系统与OSS之间的数据导入和导出。批式任务适用于计算任务开始前数据集的预加载;流式任务适用于计算任务训练中模型多个Checkpoint文件持续性的写回与预加载场景。如果任务执行失败,您可以通过任务报告检查失败原因。

    警告

    CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-alihbr-sync-mtime,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。

使用限制

  • 数据流动

    • CPFS智算版2.4.0及以上版本支持同账号数据流动,CPFS智算版2.6.0及以上版本支持跨账号数据流动。

    • 单个CPFS智算版文件系统最多支持创建10个数据流动。

    • CPFS智算版文件系统的一个文件路径只能与一个OSS Bucket链接。

    • CPFS智算版文件系统不支持与其他区域的OSS Bucket创建数据流动。

  • 数据流动对路径、文件名和目录名的限制

    • 在数据流动关联的文件系统路径中,不可对非空目录执行重命名操作,否则报错Permission Denied或者目录非空。

    • 目录、文件名中的特殊字符需要谨慎使用。

      • 支持大小写字母、数字、感叹号(!)、短划线(-)、下划线(_)、半角句号(.)、星号(*)和半角圆括号(())特殊字符。

      • 不支持出现以下特殊字符,否则可能会导致您的任务产生非预期的结果或运行失败。

        • 不支持子目录或文件名为双半角句号(..)的文件。

        • 不支持路径包含反斜线(\)、连续反斜线(\\)的文件。

        • 不支持子目录和文件名包含正斜线(/)的文件。

    • 不支持超长路径,数据流动支持的路径最大长度是1023个字符。

  • 数据流动任务限制

    • 仅CPFS智算版2.6.0及以上版本支持流式任务,且仅支持通过OpenAPI使用。

    • 单个数据流动下最多支持同时运行4个批式任务,流式任务无限制。

    • 导入限制

      • Symlink类型的文件导入到CPFS智算版后,会转变为包含数据的普通文件,并丢失Symlink信息。

      • 如果OSS Bucket存在多个版本,则只复制最新的版本。

      • 不支持长度大于255字节的文件名或子目录名。

    • 导出限制

      • Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。

      • Hardlink类型的文件仅作为普通文件同步到OSS。

      • Socket、Device、Pipe类型的文件导出到OSS Bucket时,会变成一个普通的无数据空白对象。

      • 不支持长度大于1023字符的目录路径。

性能指标

操作类型

指标

说明

导入数据

GB级以上文件吞吐

  • 单文件导入吞吐最大为5 GB/s。

  • 多文件导入吞吐最大为100 GB/s。

    说明

    实际的吞吐能力会受到OSS带宽和CPFS智算版文件系统吞吐能力的限制,也会受到文件大小、文件数、数据量的影响。关于OSS的带宽能力,请参见带宽;关于CPFS智算版的吞吐能力,请参见产品规格

MB级文件每秒处理个数

单目录、多目录导入:1000。

导出数据

GB级以上文件吞吐

  • 单文件导出吞吐最大为5 GB/s。

  • 多文件导出吞吐最大为100 GB/s。

    说明

    实际的吞吐能力会受到OSS带宽和CPFS智算版文件系统吞吐能力的限制,也会受到文件大小、文件数、数据量的影响。关于OSS的带宽能力,请参见带宽;关于CPFS智算版的吞吐能力,请参见产品规格

MB级文件每秒处理个数

单目录、多目录导出:1200。

费用说明

CPFS智算版数据流动功能当前公测中,免费使用。

使用流程

  1. 创建数据流动。

  2. 创建批式任务或流式任务。