PAI-TF介紹 - Platform For AI

PAI-TF是人工智慧平台PAI為了追求更極致的深度學習訓練效率，最佳化原生Tensorflow的核心並開發周邊工具，推出的一款產品。PAI-TF擁有服務化、分布式調度、全域計算調度、GPU卡映射及模型線上預測等特點。

警告

公用雲GPU伺服器即將過保下線，您可以繼續提交CPU版本的TensorFlow任務。如需使用GPU進行模型訓練，請前往DLC提交任務，具體操作請參見建立訓練任務。

背景

TensorFlow是Google最新的開源深度學習計算架構，支援CNN、RNN及LSTM等多種神經網路模型，對語音、映像及文本等領域的模型訓練效率極佳。TensorFlow的功能豐富且強大，並擁有高度靈活的API，受到業界的高度關注。

PAI-TF是人工智慧平台PAI為了追求更極致的深度學習訓練效率，最佳化原生TensorFlow的核心並開發周邊工具，推出的一款產品。PAI-TF完全相容原生TensorFlow的代碼，並且在許多工業化生產情境的效能更加優越。目前，PAI-TF已經在人工智慧平台PAI、阿里雲E-MapReduce等產品上線並應用。

產品特點

PAI-TF產品的特點如下：

服務化
MaxCompute是阿里雲自主研發的飛天巨量資料平台，已經支援了數萬企業及個人開發人員。PAI-TF協助您直接在MaxCompute中使用TensorFlow的計算架構。PAI-TF使用的API與開源版本一致，您可以直接通過TensorFlow Training Script介面提交作業至MaxCompute的計算叢集中執行。
分布式調度
PAI為您提供海量的計算資源，所有的計算資源通過GPU Quota進行管理。PAI-TF的作業都是基於底層的分布式調度系統動態調度至不同機器。當您提交PAI-TF作業時，無需擔心是否需要提前申請GPU物理主機，PAI-TF所需要的GPU資源隨作業的提交動態分配，隨作業的結束動態釋放。
全域計算調度
當您在使用MaxCompute計算引擎時，您可以在一個專案中同時提交SQL作業和PAI-TF作業。MaxCompute全域計算調度服務能夠將PAI-TF作業自動調度至相應的GPU叢集，並將基於CPU叢集的資料預先處理作業和基於GPU叢集的模型訓練作業串連起來。
GPU卡映射
PAI-TF支援將不同運算元（Operators）指定至特定的CPU或GPU上。基於GPU卡映射，您無需感知宿主機的GPU卡物理結構，PAI-TF會將您作業中申請的GPU卡自動對應至作業進程空間，則您感知到的GPU卡為gpu:0、gpu:1….等。
模型線上預測
PAI為您提供了線上預測服務EAS。您可以將PAI-TF中訓練產生的模型一鍵部署至線上預測服務。線上預測服務支援模型的動態擴容、變換、A/B測試、高吞吐及低延時等特性。

支援的Python三方庫

PAI-TF已經安裝了Numpy及Six等常見的Python三方庫，您可以在TensorFlow作業中直接匯入相關的庫。