PAI为您提供任务管理页面,支持通过任务管理页面统一可视化的管理基于云原生AI基础平台DLC提交的分布式训练任务。本文为您介绍如何创建及管理任务。
操作账号和权限要求
阿里云主账号:使用该账号可完成所有操作,无需额外授权。
RAM用户:需要为RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限,各角色的权限详情可前往附录:角色及权限列表查看。
创建分布式训练任务
您可以在分布式训练(DLC)页签,创建DLC分布式训练任务,具体操作步骤如下。
管理分布式训练任务
分布式训练任务汇总了从DLC、Designer中运行在DLC上的算法节点、DLC命令行工具等入口提交的分布式训练任务。您可以按照下图操作指引,管理任务。
DLC任务删除后无法恢复,请谨慎操作。
①:使用任务名称、任务ID、时间区间、框架或状态快速定位到目标任务。
②:单击任务名称,进入任务详情页面,查看任务执行状态、实例执行状态、资源视图及日志等。
③:将鼠标悬浮到③位置,快速查看任务执行状态。
④:您可以克隆一个新的任务,或单击操作列下的Tensorboard,为该任务创建一个Tensorboard实例,通过Tensorboard可视化界面更直观地查看该任务的训练结果。
通过关键词查询聚合日志
操作步骤
您可以在日志页签通过关键词进行相关日志事件搜索,具体操作步骤如下。
在左侧导航栏选择AI资产管理>任务,然后在分布式训练(DLC)页面单击任务名称。
单击日志页签,进行相关设置。
在任务信息上方选择日志采集时间范围。
说明日志采集时间可能晚于任务结束时间,请根据实际情况进行选择。
在实例列表区域勾选实例。
在右侧搜索框内输入关键词,搜索相关日志或事件。
基本查询规则
聚合日志关键词查询需要使用完整的词进行查询,但由于DLC使用的SLS日志服务查询采用的是分词法,精确查询时并不能完全匹配关键词。
例如,关键词为abc def,查询结果将包含所有abc和def的日志,无法完全匹配完整的abc def。
模糊查询规则
在聚合日志关键词查询时,可以使用星号(*)和半角问号(?)来实现模糊查询,其余特殊符号无效。具体规则如下:
星号(*)代表多个任意字符的词,半角问号(?)代表单个字符的词。
星号(*)和半角问号(?)需要加在关键词的中间或者末尾,放在关键词的开头会被视为无效。
例如,关键词abc*代表查询以abc开头的词,关键词ab?d代表查询以ab开头、d结尾且中间包含单个字符的词。
使用模糊查询时,会在日志库中的所有日志中为您查询符合条件的100个模糊搜索词。最后返回包含这100个模糊搜索词的日志。因此,您设置的模糊条件前缀很短且日志中超过100个词,可能存在不精准的情况。指定的词越精确,查询结果越精确。
分词符限制
DLC使用的SLS日志服务为了更好地对DLC任务的训练日志进行分词,将以下几种常见的字符内置为分词符:, '";=()[\",\"]{}?@&<>/:\n\t\r
分词符的作用在于将日志内容拆分成多个分词,并用于搜索。因此,在使用仅有分词符组成的字符串作为关键词进行搜索时,不会被当作完整的词进行处理,返回的结果将为空。
示例一:关键词为&&&,无法成功查询到相关的日志,建议结合待查询的关键词的上下文重新构建关键词。
示例二:若需要查询日志内容包含a&b的日志时,建议选择a&b为关键词,而不是以&为关键词。以a&b为关键词,会返回包含a和b的日志,关键词越详细,精准度会越高。
关键词示例
查询需求 | 关键词示例 |
搜索包含Error的日志。 | Error |
搜索包含loss和acc的日志。 | loss acc |
模糊搜索关于所有涉及Traceback的日志。 | Traceback* |
搜索包含abc&def的日志。 | abc&def |