FastGPU是一套阿里雲推出的人工智慧計算極速部署工具。您可以通過其提供的便捷的介面和自動工具,實現人工智慧訓練和推理任務在阿里雲IaaS資源上的快速部署。
FastGPU介紹
FastGPU作為銜接您的線下人工智慧演算法和線上阿里雲海量GPU計算資源的關鍵一環,方便您將人工智慧計算任務構建在阿里雲的IaaS資源上。使用FastGPU構建人工智慧計算任務時,您無需關心IaaS層的計算、儲存、網路等資源部署操作,即可達到簡單適配、一鍵部署、隨處啟動並執行效果。
FastGPU提供以下兩套組件:
運行時組件ncluster:提供便捷的介面將線下的人工智慧訓練和推理指令碼快速部署在阿里雲的IaaS資源上,更多運行時組件使用說明請參見Python SDK使用說明。
命令列組件ecluster:提供便捷的命令列工具,用於管理阿里雲上人工智慧計算任務的運行狀態和叢集的生命週期,更多命令列組件使用說明請參見命令列使用說明。
組成模組
FastGPU的組成模組如下圖所示。
底層:調用阿里雲的OpenAPI來實現阿里雲雲上資源的互動層。
中介層:在人工智慧任務運行時,對涉及的IaaS層資源所需的對象進行封裝後形成的阿里雲後端層。
上層:對人工智慧任務與相應的阿里雲執行個體資源進行映射,適配後形成的使用者控制層。
您只需調用使用者控制層,即可快速構建阿里雲上的IaaS級人工智慧計算任務。
典型流程
使用FastGPU完成AI計算任務的典型流程如下圖所示。
例如,使用FastGPU完成一項訓練任務:
在使用者起始狀態階段:
將訓練資料集上傳到Object Storage Service中,並建立一台ECS執行個體(作為開發主機)存放訓練代碼。
在FastGPU即刻構建計算任務階段:
在開發主機上通過FastGPU一鍵部署叢集,建立出任務所需的資源,包括計算資源(CPU、GPU)、儲存資源(雲端硬碟、NAS檔案系統等)、互動式資源(Tmux、Tensorboard)等。
自動啟動分布式訓練任務,在訓練過程中支援通過互動式資源即時查看訓練情況。
分布式訓練任務完成後自動釋放資源。
在使用者完成狀態階段:
將訓練得到的模型和log檔案存放在開發主機的雲端硬碟或Object Storage Service上,供您查看任務結果。