阿里雲GPU雲端服務器具有廣闊的覆蓋範圍、超強的計算能力、出色的網路效能和靈活的購買方式,神行工具包(DeepGPU)是專門為GPU雲端服務器搭配的具有GPU計算服務增強能力的免費工具集。本文主要介紹GPU雲端服務器和神行工具包(DeepGPU)的優勢。
GPU產品優勢
覆蓋範圍廣闊
阿里雲GPU雲端服務器在全球多個地區實現規模部署,覆蓋範圍廣,結合彈性供應、Auto Scaling等交付方式,能夠很好地滿足您業務的突發需求。
計算能力超強
阿里雲GPU雲端服務器配備業界超強算力的GPU計算卡,結合高效能CPU平台,單一實例可提供高達1000 TFLOPS的混合精度計算效能。
網路效能出色
阿里雲GPU雲端服務器執行個體的VPC網路最大支援450萬的PPS及32 Gbit/s的內網頻寬。在此基礎上,Super Computing Cluster產品中,節點間額外提供高達50 Gbit/s的RDMA網路,滿足節點間資料轉送的低延時高頻寬要求。
購買方式靈活
支援靈活的資源付費模式,包括訂用帳戶、隨用隨付、搶佔式執行個體、預留執行個體券、儲存容量單位包。您可以按需要購買,避免資源浪費。
神行工具包(DeepGPU)優勢
神行工具包中的組件主要包括AI加速器Deepytorch、AI分布式訓練通訊最佳化庫AIACC-ACSpeed、AI訓練計算最佳化編譯器AIACC-AGSpeed、叢集極速部署工具FastGPU以及GPU容器共用技術cGPU,其各自具有以下核心優勢。
AI加速器Deepytorch
Deepytorch是阿里雲自研的AI加速器,為產生式AI和大模型情境提供訓練和推理加速功能,在訓練和推理方面,具有更好的效能優勢和易用性。該AI加速器包含Deepytorch Training和Deepytorch Inference兩個軟體包。
訓練和推理效能顯著提升
Deepytorch Training通過整合分布式通訊和計算圖編譯的效能特點,可以實現端到端訓練效能的顯著提升,使得模型訓練迭代速度更快,成本更低。
Deepytorch Inference通過編譯加速的方式減少模型推理的延遲,從而提高模型的即時性和響應速度,能顯著提升模型的推理加速效能。
易用性好
Deepytorch Training具有充分相容開源生態等特點,相容PyTorch主流版本,支援主流分布式訓練架構。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
Deepytorch Inference無需您指定精度和輸入尺寸,通過即時編譯的方式,提供較好的易用性,代碼侵入量較少,從而降低代碼複雜度和維護成本。
AI通訊加速庫DeepNCCL
DeepNCCL是為阿里雲神龍異構產品開發的一種用於多GPU互聯的AI通訊加速庫,在AI分布式訓練或多卡推理任務中用於提升通訊效率。
通訊最佳化效果顯著
支援單機最佳化和多機最佳化,相比NCCL原生在效能上提升了20%以上。
無感加速
多GPU互聯通訊,無感地加速分布式訓練或多卡推理等任務。
推理引擎DeepGPU-LLM
DeepGPU-LLM是阿里雲研發的基於GPU雲端服務器的大語言模型(Large Language Model,LLM)的推理引擎,在處理大語言模型任務中,該推理引擎可以為您提供高效能的大模型推理服務。
高效能、低延遲
支援多GPU並行(Tensor Parallel)和多卡之間的通訊最佳化,從而提高多GPU並行計算的效率和速度。
支援多種主流模型
支援通義千問Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,滿足不同情境下的模型推理。
AI分布式訓練通訊最佳化庫AIACC-ACSpeed
AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)作為阿里雲自研的AI訓練加速器,專註於分布式訓練情境的通訊最佳化功能,在訓練情境下具有其顯著的效能優勢,提高計算效率的同時能夠降低使用成本。
定製最佳化
提供針對PyTorch熱門架構的特定最佳化,適用於所有模型的訓練情境。
統一加速
基於nccl-plugin組件功能,提供對TensorFlow、Caffe、MXNet多種人工智慧架構的統一加速。
效能深度最佳化
基於阿里雲IaaS基礎資源(GPU、CPU、網路以及I/O等基礎設施)提供效能的深度最佳化。
Auto Scaling
基於阿里雲IaaS基礎資源,相容PyTorch原生特性,支援一鍵構建和Auto Scaling功能。
開源相容
輕量便捷、開源相容。您基於開源架構編寫的演算法代碼或模型代碼,幾乎無需進行修改。
如果您想瞭解ACSpeed在訓練模型時的效能優勢,更多資訊,請參見AIACC-ACSpeed效能資料。
AI訓練計算最佳化編譯器AIACC-AGSpeed
AIACC-AGSpeed(簡稱AGSpeed)作為阿里雲自研的AI訓練計算最佳化編譯器,針對PyTorch熱門架構訓練情境中存在的計算瓶頸進行深度最佳化,具有其顯著的效能優勢,在提高訓練效率的同時能夠降低使用成本。
定製最佳化
提供針對PyTorch熱門架構的特定最佳化,適用於PyTorch架構的所有模型的訓練情境。
無感加速
通過TorchScript在PyTorch架構中擷取後端編譯器可最佳化的靜態計算圖,屬於當前較成熟的方案,但該方案仍無法做到完全的準確與無感。相比PyTorch原生提供的TorchScript前端,AGSpeed具有無感加速的效能優勢。
效能深度最佳化
基於阿里雲IaaS基礎資源(GPU、CPU、網路以及I/O等基礎設施)提供效能的深度最佳化。
開源相容
輕量便捷、開源相容。您基於開源架構編寫的演算法代碼或模型代碼,幾乎無需進行修改。
叢集極速部署工具FastGPU
使用FastGPU構建人工智慧計算任務時,您無需關心IaaS層的計算、儲存、網路等資源部署操作,簡單適配即可一鍵部署,協助您節省時間成本以及經濟成本。
節省時間
一鍵部署叢集。無需分別進行IaaS層計算、儲存、網路等資源的部署操作,將部署叢集的時間縮短到5分鐘。
通過介面和命令列管理工作和資源,方便快捷。
節省成本
當資料集完成準備工作並觸發訓練或推理任務後,才會觸發GPU執行個體資源的購買。當訓練或推理任務結束後,將自動釋放GPU執行個體資源。實現了資源生命週期與任務同步,協助您節省成本。
支援建立搶佔式執行個體。
易用性好
所有資源均為IaaS層,可訪問、可調試。
滿足可視化和log管理需求,保證任務可回溯。
GPU容器共用技術cGPU
GPU容器共用技術cGPU擁有節約成本和靈活分配資源的優勢,從而實現您業務的安全隔離。
節約成本
隨著顯卡技術的不斷髮展和半導體製造工藝的進步,單張GPU卡的算力越來越強,同時價格也越來越高。但在很多的業務情境下,一個AI應用並不需要一整張的GPU卡。cGPU的出現讓多個容器共用一張GPU卡,從而實現業務的安全隔離,提升GPU利用率,節約使用者成本。
可靈活分配資源
cGPU實現了物理GPU的資源任意劃分,您可以按照不同比例靈活配置。
支援按照顯存和算力兩個維度劃分,您可以根據需要靈活分配。
cGPU擁有靈活可配置的算力分配策略,支援三種調度策略的即時切換,滿足了AI負載的峰穀能力的要求。