PAI-TF介绍 - 人工智能平台 PAI

PAI-TF是人工智能平台PAI为了追求更极致的深度学习训练效率，优化原生Tensorflow的内核并开发周边工具，推出的一款产品。PAI-TF拥有服务化、分布式调度、全局计算调度、GPU卡映射及模型在线预测等特点。

警告

公共云GPU服务器即将过保下线，您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练，请前往DLC提交任务，具体操作请参见创建训练任务。

背景

TensorFlow是Google最新的开源深度学习计算框架，支持CNN、RNN及LSTM等多种神经网络模型，对语音、图像及文本等领域的模型训练效率极佳。TensorFlow的功能丰富且强大，并拥有高度灵活的API，受到业界的高度关注。

PAI-TF是人工智能平台PAI为了追求更极致的深度学习训练效率，优化原生TensorFlow的内核并开发周边工具，推出的一款产品。PAI-TF完全兼容原生TensorFlow的代码，并且在许多工业化生产场景的性能更加优越。目前，PAI-TF已经在人工智能平台PAI、阿里云E-MapReduce等产品上线并应用。

产品特点

PAI-TF产品的特点如下：

服务化
MaxCompute是阿里云自主研发的飞天大数据平台，已经支持了数万企业及个人开发者。PAI-TF帮助您直接在MaxCompute中使用TensorFlow的计算框架。PAI-TF使用的API与开源版本一致，您可以直接通过TensorFlow Training Script接口提交作业至MaxCompute的计算集群中执行。
分布式调度
PAI为您提供海量的计算资源，所有的计算资源通过GPU Quota进行管理。PAI-TF的作业都是基于底层的分布式调度系统动态调度至不同机器。当您提交PAI-TF作业时，无需担心是否需要提前申请GPU物理主机，PAI-TF所需要的GPU资源随作业的提交动态分配，随作业的结束动态释放。
全局计算调度
当您在使用MaxCompute计算引擎时，您可以在一个项目中同时提交SQL作业和PAI-TF作业。MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群，并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。
GPU卡映射
PAI-TF支持将不同算子（Operators）指定至特定的CPU或GPU上。基于GPU卡映射，您无需感知宿主机的GPU卡物理结构，PAI-TF会将您作业中申请的GPU卡自动映射至作业进程空间，则您感知到的GPU卡为gpu:0、gpu:1….等。
模型在线预测
PAI为您提供了在线预测服务EAS。您可以将PAI-TF中训练生成的模型一键部署至在线预测服务。在线预测服务支持模型的动态扩容、滚动更新、A/B测试、高吞吐及低延时等特性。

支持的Python三方库

PAI-TF已经安装了Numpy及Six等常见的Python三方库，您可以在TensorFlow作业中直接导入相关的库。