全部产品
Search
文档中心

人工智能平台 PAI:创建及管理分布式训练任务

更新时间:Sep 12, 2024

PAI为您提供任务管理页面,支持通过任务管理页面统一可视化的管理基于云原生AI基础平台DLC提交的分布式训练任务。本文为您介绍如何创建及管理任务。

操作账号和权限要求

  • 阿里云主账号:使用该账号可完成所有操作,无需额外授权。

  • RAM用户:需要为RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限,各角色的权限详情可前往附录:角色及权限列表查看。

创建分布式训练任务

您可以在分布式训练(DLC)页签,创建DLC分布式训练任务,具体操作步骤如下。

  1. 进入任务管理页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择AI资产管理 > 任务,进入任务管理页面。

  2. 分布式训练(DLC)页签,单击新建任务

  3. 新建任务页面,配置参数,并单击确认

    关于如何配置参数,详情请参见创建训练任务

管理分布式训练任务

分布式训练任务汇总了从DLC、Designer中运行在DLC上的算法节点、DLC命令行工具等入口提交的分布式训练任务。您可以按照下图操作指引,管理任务。a95d0b5d2be165babe046176dcf0cdc8

警告

DLC任务删除后无法恢复,请谨慎操作。

  • ①:使用任务名称、任务ID、时间区间、框架或状态快速定位到目标任务。

  • ②:单击任务名称,进入任务详情页面,查看任务执行状态、实例执行状态、资源视图及日志等。

  • ③:将鼠标悬浮到③位置,快速查看任务执行状态。

  • ④:您可以克隆一个新的任务,或单击操作列下的Tensorboard,为该任务创建一个Tensorboard实例,通过Tensorboard可视化界面更直观地查看该任务的训练结果。

通过关键词查询聚合日志

操作步骤

您可以在日志页签通过关键词进行相关日志事件搜索,具体操作步骤如下。

  1. 在左侧导航栏选择AI资产管理>任务,然后在分布式训练(DLC)页面单击任务名称。

  2. 单击日志页签,进行相关设置。

    1. 任务信息上方选择日志采集时间范围。

      说明

      日志采集时间可能晚于任务结束时间,请根据实际情况进行选择。

    2. 实例列表区域勾选实例。

    3. 在右侧搜索框内输入关键词,搜索相关日志或事件。

基本查询规则

聚合日志关键词查询需要使用完整的词进行查询,但由于DLC使用的SLS日志服务查询采用的是分词法,精确查询时并不能完全匹配关键词。

例如,关键词为abc def,查询结果将包含所有abcdef的日志,无法完全匹配完整的abc def

模糊查询规则

在聚合日志关键词查询时,可以使用星号(*)和半角问号(?)来实现模糊查询,其余特殊符号无效。具体规则如下:

  • 星号(*)代表多个任意字符的词,半角问号(?)代表单个字符的词。

  • 星号(*)和半角问号(?)需要加在关键词的中间或者末尾,放在关键词的开头会被视为无效。

例如,关键词abc*代表查询以abc开头的词,关键词ab?d代表查询以ab开头、d结尾且中间包含单个字符的词。

说明

使用模糊查询时,会在日志库中的所有日志中为您查询符合条件的100个模糊搜索词。最后返回包含这100个模糊搜索词的日志。因此,您设置的模糊条件前缀很短且日志中超过100个词,可能存在不精准的情况。指定的词越精确,查询结果越精确。

分词符限制

DLC使用的SLS日志服务为了更好地对DLC任务的训练日志进行分词,将以下几种常见的字符内置为分词符:, '";=()[\",\"]{}?@&<>/:\n\t\r

分词符的作用在于将日志内容拆分成多个分词,并用于搜索。因此,在使用仅有分词符组成的字符串作为关键词进行搜索时,不会被当作完整的词进行处理,返回的结果将为空。

示例一:关键词为&&&,无法成功查询到相关的日志,建议结合待查询的关键词的上下文重新构建关键词。

示例二:若需要查询日志内容包含a&b的日志时,建议选择a&b为关键词,而不是以&为关键词。以a&b为关键词,会返回包含ab的日志,关键词越详细,精准度会越高。

关键词示例

查询需求

关键词示例

搜索包含Error的日志。

Error

搜索包含loss和acc的日志。

loss acc

模糊搜索关于所有涉及Traceback的日志。

Traceback*

搜索包含abc&def的日志。

abc&def