PAI-TF是人工智慧平台PAI為了追求更極致的深度學習訓練效率,最佳化原生Tensorflow的核心並開發周邊工具,推出的一款產品。PAI-TF擁有服務化、分布式調度、全域計算調度、GPU卡映射及模型線上預測等特點。
公用雲GPU伺服器即將過保下線,您可以繼續提交CPU版本的TensorFlow任務。如需使用GPU進行模型訓練,請前往DLC提交任務,具體操作請參見建立訓練任務。
背景
TensorFlow是Google最新的開源深度學習計算架構,支援CNN、RNN及LSTM等多種神經網路模型,對語音、映像及文本等領域的模型訓練效率極佳。TensorFlow的功能豐富且強大,並擁有高度靈活的API,受到業界的高度關注。
PAI-TF是人工智慧平台PAI為了追求更極致的深度學習訓練效率,最佳化原生TensorFlow的核心並開發周邊工具,推出的一款產品。PAI-TF完全相容原生TensorFlow的代碼,並且在許多工業化生產情境的效能更加優越。目前,PAI-TF已經在人工智慧平台PAI、阿里雲E-MapReduce等產品上線並應用。
產品特點
PAI-TF產品的特點如下:
服務化
MaxCompute是阿里雲自主研發的飛天巨量資料平台,已經支援了數萬企業及個人開發人員。PAI-TF協助您直接在MaxCompute中使用TensorFlow的計算架構。PAI-TF使用的API與開源版本一致,您可以直接通過TensorFlow Training Script介面提交作業至MaxCompute的計算叢集中執行。
分布式調度
PAI為您提供海量的計算資源,所有的計算資源通過GPU Quota進行管理。PAI-TF的作業都是基於底層的分布式調度系統動態調度至不同機器。當您提交PAI-TF作業時,無需擔心是否需要提前申請GPU物理主機,PAI-TF所需要的GPU資源隨作業的提交動態分配,隨作業的結束動態釋放。
全域計算調度
當您在使用MaxCompute計算引擎時,您可以在一個專案中同時提交SQL作業和PAI-TF作業。MaxCompute全域計算調度服務能夠將PAI-TF作業自動調度至相應的GPU叢集,並將基於CPU叢集的資料預先處理作業和基於GPU叢集的模型訓練作業串連起來。
GPU卡映射
PAI-TF支援將不同運算元(Operators)指定至特定的CPU或GPU上。基於GPU卡映射,您無需感知宿主機的GPU卡物理結構,PAI-TF會將您作業中申請的GPU卡自動對應至作業進程空間,則您感知到的GPU卡為gpu:0、gpu:1….等。
模型線上預測
PAI為您提供了線上預測服務EAS。您可以將PAI-TF中訓練產生的模型一鍵部署至線上預測服務。線上預測服務支援模型的動態擴容、變換、A/B測試、高吞吐及低延時等特性。
支援的Python三方庫
PAI-TF已經安裝了Numpy及Six等常見的Python三方庫,您可以在TensorFlow作業中直接匯入相關的庫。