全部产品
Search
文档中心

人工智能平台 PAI:查看训练详情

更新时间:Dec 31, 2024

成功提交训练任务后,您可以通过查看任务基本信息与配置、任务事件、资源视图以及任务日志等内容来全面了解任务的运行情况。

查看任务基本信息及配置

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入DLC

  2. 单击目标任务名称,进入任务概览页面。

  3. 概览页面,您可以查看该任务的基本信息、环境信息和资源信息等。image

查看任务事件

事件日志记录了任务调度和资源相关的进度日志,您可以通过查看任务事件来定位和排查问题。

  • 查看任务事件日志:

    切换到事件页签,查看任务事件日志。image

  • 查看节点事件日志:

    概览页面下方的实例区域,单击实例操作列下的日志,在事件页签查看具体的节点事件日志。image

查看资源视图

目前资源视图支持查看的主要指标包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通过查看资源视图实时监控任务的资源使用情况,从而全面了解任务对不同资源的需求程度,监控资源的利用率和消耗情况,方便进行资源优化和规划。

您可以切换到监控页签,查看任务资源视图。image

目前支持作业维度POD维度GPU维度的监控指标展示。您可以通过监控报警功能,实时监控DLC任务的资源水位,具体操作,请参见训练监控与报警

查看任务日志

当任务运行异常或需要查看任务执行的历史记录时,您可以通过以下两种方法查看任务日志:

  • 概览页面下方的实例区域,单击实例操作列下的日志,查看某个节点的输出日志。image

  • 切换到日志页签,通过关键词搜索相关日志事件。具体操作,请参见通过关键词查询聚合日志image

查看行为事件日志

PAI已集成至操作审计(ActionTrail)中,您可以在ActionTrail中查看和检索阿里云账号最近90天的DLC行为事件日志。具体操作,请参见操作审计

相关文档

您可以根据任务的运行情况,进行相应的管理操作,详情请参见管理训练任务