全部产品
Search
文档中心

文件存储 CPFS:管理数据流动任务

更新时间:Dec 23, 2024

本文介绍如何在文件存储控制台创建、管理CPFS智算版文件系统的数据流动任务及查看任务失败原因。

背景信息

通过控制台创建的数据流动任务为批式任务,仅能一次性导入或导出一个目录中的所有文件至另一个目录,无法实现单文件粒度的持续性流动。如果您需要实现单文件粒度的持续性流动,则需通过流式任务的OpenAPI进行操作。具体操作,请参见数据流动流式任务最佳实践

前提条件

创建任务

  1. 登录文件存储控制台

  2. 在左侧导航栏,选择文件系统>文件系统列表

  3. 在顶部菜单栏,选择地域。

  4. 文件系统列表页面,单击目标CPFS智算版文件系统名称。

  5. 在文件系统详情页面,单击数据流动

  6. 数据流动页面,找到目标数据流动,单击任务管理

  7. 任务管理面板,单击创建任务

  8. 创建任务面板,您可以创建不同类型的任务并配置任务详情。

    导入数据

    • Symlink类型的文件导入到CPFS后,会转变为包含数据的普通文件,并丢失Symlink信息。

    • 如果OSS Bucket存在多个版本,则只复制最新的版本。

    • 不支持长度大于255字节的文件名或子目录名。

    • 目录和文件不支持出现以下特殊字符,否则可能会导致您的任务产生非预期的结果或运行失败。

      • 不支持子目录或文件名为双半角句号(..)的文件。

      • 不支持路径包含反斜线(\)、连续反斜线(\\)的文件。

      • 不支持子目录和文件名包含正斜线(/)的文件。

    • 当文件名和文件子目录发生冲突时,在CPFS文件系统中会出现对象冲突的情况,只能确保其中一个操作成功,而另一个则会失败。

    配置项

    说明

    导入数据类型

    支持数据+元数据类型。表示同时导入文件的数据块及元数据。

    导入文件

    选择数据流动任务执行的目录或文件列表。必须是OSS Object Prefix内的相对路径,且以正斜线(/)开头和结尾。

    说明

    如果创建数据流动时配置的CPFS路径不存在,您可以选中如果您当前创建的CPFS目录不存在,系统将为您自动创建,以防导入数据失败。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 跳过同名文件(缺省):忽略同名文件不进行同步。

    • 保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。

    • 覆盖同名文件:将同名文件覆盖为OSS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。

    导出数据

    • 源端OSS Bucket已开启版本控制。在数据流动的使用过程中,不能暂停版本控制,否则执行导出任务时会报错。更多信息,请参见版本控制介绍

    • Symlink类型的文件在同步到OSS后,不会同步Symlink所指向的文件,而是会变成一个普通的无数据空白对象。

    • Hardlink类型的文件仅作为普通文件同步到OSS。

    • 不支持Socket、Device、Pipe类型的文件导出到OSS Bucket。

    • 不支持长度大于1023字符的目录路径。

    • 目录和文件不支持出现以下特殊字符,否则可能会导致您的任务产生非预期的结果或运行失败。

      • 不支持子目录或文件名为双半角句号(..)的文件。

      • 不支持路径包含反斜线(\)、连续反斜线(\\)的文件。

      • 不支持子目录和文件名包含正斜线(/)的文件。

    • CPFS智算版会将File Modification timestamps属性导出到OSS Bucket的自定义元数据中,其命名为x-oss-meta-alihbr-sync-mtime,不能删除或修改,否则文件系统中的File Modification timestamps属性会错误。

    配置项

    说明

    导出数据类型

    支持数据+元数据类型。表示同时导出文件的数据块及元数据。

    导出文件

    选择数据流动任务执行的目录或者文件列表。必须是OSS Object Prefix内的相对路径,且以正斜线(/)开头和结尾。

    冲突策略

    当CPFS智算版文件系统与OSS Bucket存在同名文件时的处理策略。

    • 跳过同名文件(缺省):忽略同名文件不进行同步。

    • 保持最新:同名文件比较更新时间(即mtime),保持更新的版本。OSS采用修改时间,CPFS采用修改时间。

    • 覆盖同名文件:将同名文件覆盖为CPFS端版本。选中将当前源端文件覆盖目标端已存在的同名文件,请确保您已备份重要数据。

  9. 单击确定

取消任务

取消运行中的数据流动任务。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,单击取消

  3. 确认待取消的任务,单击确定

复制任务

您可以通过复制任务重复执行之前已经执行过的任务。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,选择image图标 > 复制

  3. 确认待复制的任务,单击确定

查看任务失败原因

当数据流动任务运行失败后,系统会显示失败原因或生成一份失败任务报告,您可以在控制台上查看失败原因或下载该报告并排查失败原因。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,并将光标放置失败右侧的气泡上,查看失败原因或下载失败报告查看失败原因。

    说明

    若未显示失败原因或无报告或无法根据报告排查失败原因,请咨询处理。

    image

查看任务配置信息和运行状态

在控制台中查看批式任务的配置信息及运行状态。如果想查看流式任务的配置信息及运行状态,可通过调用DescribeDataFlowTasks API进行查询。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,查看任务的配置信息及运行状态。

    参数

    说明

    任务ID

    数据流动任务的唯一标识。

    类型

    任务类型。包括:导入或导出。

    冲突策略

    目标文件系统中已存在同名数据时的处理方式。包括:

    • 跳过同名文件(缺省)

    • 保持最新

    • 覆盖同名文件

    数据源地址

    数据从源端到目的端的完整传输路径。

    数据目的地址

    数据源目录

    源端扫描总量

    扫描到的源端数据量。单位:字节。

    同步完成量

    已完成数据流动数据量(包括跳过数据)。单位:字节。

    实际传输量

    实际流动的数据量。单位:字节。

    平均速度

    数据流动的平均传输速度。单位:Byte/s。

    剩余时长

    基于当前速度估算的任务完成所需时间。

    时间段

    任务开始时间和结束时间。

    进度

    当前任务的执行进度百分比。单位:%。

    状态

    当前任务的执行情况。包括:

    • 等待:数据流动任务已创建,在排队中未开始执行。

    • 运行中:数据流动任务在执行中。

    • 失败:数据流动任务执行失败。

    • 已取消:数据流动任务被取消并且没有完成。

    • 取消中:数据流动任务正在被取消。

    • 结束:数据流动任务执行结束。

查看任务报告

当数据流动任务运行结束后,系统将根据实际情况生成跳过的文件报告失败的文件报告成功文件报告。您可以在控制台下载报告并查看文件的详细信息。

  1. 数据流动页签,找到目标数据流动,单击任务管理

  2. 任务管理面板,找到目标任务,单击下载任务报告

  3. 确认待下载的报告,单击image

查看任务性能监控或配置告警规则

要查看任务性能监控或配置告警规则,请确保使用的是CPFS智算版文件系统2.6.0及以上版本,并已创建数据流动任务。

  • 如果您想了解数据流动导入或导出任务的读写吞吐、读写IOPS、元数据QPS等性能概况,请参见查看CPFS性能监控

  • 如果您希望为数据流动任务指定监控指标设置报警规则,以便及时获知指标异常并迅速处理该异常,请参见配置基础告警规则