使用Pai-Megatron-Patch進行模型的訓練加速時,您需要先完成Pai-Megatron-Patch鏡像的安裝。本文為您介紹安裝Pai-Megatron-Patch鏡像的使用限制和操作要點。
使用限制
安裝Pai-Megatron-Patch鏡像時,僅支援使用GPU類型的執行個體。
顯卡驅動版本在460.32及以上。
操作步驟
在DLC中安裝Pai-Megatron-Patch鏡像
DLC為開發人員和企業提供了雲原生一站式的深度學習訓練平台,為您提供靈活、穩定、易用和高效能的機器學習訓練環境。支援多種演算法架構,超大規模分布式深度學習任務運行及自訂演算法架構,為開發人員和企業降本增效。
DLC提供了載入使用者自訂鏡像的能力,這極大方便了Pai-Megatron-Patch的部署。只需將鏡像地址傳給DLC,即可自動安裝Pai-Megatron-Patch鏡像,安裝完成後就可以在DLC上基於Pai-Megatron-Patch開展多機多卡超大規模分布式訓練。
具體安裝步驟如下。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導覽列選擇模型開發與訓練 > 分布式訓練(DLC),單擊建立任務。
關鍵配置資訊如下所示,其他參數根據實際情況配置即可,參數詳情請參見建立訓練任務。
環境資訊:節點鏡像選擇鏡像地址,並在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
資源資訊:
架構選擇PyTorch。
任務資源:在資源規格列單擊,選擇GPU類型的節點,並根據實際情況選擇具體節點規格。
單擊確定。
在DSW中安裝Pai-Megatron-Patch鏡像
DSW是為演算法開發人員量身打造的雲端深度學習開發環境,整合JupyterLab,外掛程式化深度定製化開發,無需任何營運配置,沈浸式體驗Notebook編寫、調試及運行Python代碼。支援開源架構的安裝,並提供阿里巴巴深度最佳化的Tensorflow架構,通過編譯最佳化提升訓練效能。
DSW也提供了載入使用者自訂鏡像的能力,只需將鏡像地址傳給DSW,即可自動安裝Pai-Megatron-Patch,安裝完成後就可以在DSW上基於Pai-Megatron-Patch調試訓練加速程式。
具體安裝步驟如下。
登入PAI控制台。
在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導覽列選擇模型開發與訓練 > 互動式建模(DSW),單擊建立執行個體。
關鍵配置資訊如下所示,其他參數根據實際情況配置即可,參數詳情請參見建立DSW執行個體。
資源配額:選擇公用資源(後付費)。
資源規格:單擊,根據實際使用情境選擇所需的GPU類型的執行個體規格。
鏡像:在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:
pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm
。
單擊確定,建立DSW執行個體。
安裝後使用
安裝Pai-Megatron-Patch鏡像後,您可以在Pai-Megatron-Patch的examples檔案夾中查看相關樣本並使用。