全部產品
Search
文件中心

Platform For AI:安裝Pai-Megatron-Patch鏡像

更新時間:Jul 13, 2024

使用Pai-Megatron-Patch進行模型的訓練加速時,您需要先完成Pai-Megatron-Patch鏡像的安裝。本文為您介紹安裝Pai-Megatron-Patch鏡像的使用限制和操作要點。

使用限制

  • 安裝Pai-Megatron-Patch鏡像時,僅支援使用GPU類型的執行個體。

  • 顯卡驅動版本在460.32及以上。

操作步驟

在DLC中安裝Pai-Megatron-Patch鏡像

DLC為開發人員和企業提供了雲原生一站式的深度學習訓練平台,為您提供靈活、穩定、易用和高效能的機器學習訓練環境。支援多種演算法架構,超大規模分布式深度學習任務運行及自訂演算法架構,為開發人員和企業降本增效。

DLC提供了載入使用者自訂鏡像的能力,這極大方便了Pai-Megatron-Patch的部署。只需將鏡像地址傳給DLC,即可自動安裝Pai-Megatron-Patch鏡像,安裝完成後就可以在DLC上基於Pai-Megatron-Patch開展多機多卡超大規模分布式訓練。

具體安裝步驟如下。

  1. 登入PAI控制台

  2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

  3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 分布式訓練(DLC),單擊建立任務

  4. 關鍵配置資訊如下所示,其他參數根據實際情況配置即可,參數詳情請參見建立訓練任務

    • 環境資訊節點鏡像選擇鏡像地址,並在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm

    • 資源資訊

      • 架構選擇PyTorch

      • 任務資源:在資源規格列單擊image,選擇GPU類型的節點,並根據實際情況選擇具體節點規格。

    image

    image

  5. 單擊確定

在DSW中安裝Pai-Megatron-Patch鏡像

DSW是為演算法開發人員量身打造的雲端深度學習開發環境,整合JupyterLab,外掛程式化深度定製化開發,無需任何營運配置,沈浸式體驗Notebook編寫、調試及運行Python代碼。支援開源架構的安裝,並提供阿里巴巴深度最佳化的Tensorflow架構,通過編譯最佳化提升訓練效能。

DSW也提供了載入使用者自訂鏡像的能力,只需將鏡像地址傳給DSW,即可自動安裝Pai-Megatron-Patch,安裝完成後就可以在DSW上基於Pai-Megatron-Patch調試訓練加速程式。

具體安裝步驟如下。

  1. 登入PAI控制台

  2. 在左側導覽列單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

  3. 在工作空間頁面的左側導覽列選擇模型開發與訓練 > 互動式建模(DSW),單擊建立執行個體

  4. 關鍵配置資訊如下所示,其他參數根據實際情況配置即可,參數詳情請參見建立DSW執行個體

    • 資源配額:選擇公用資源(後付費)

    • 資源規格:單擊image,根據實際使用情境選擇所需的GPU類型的執行個體規格。

    • 鏡像:在鏡像地址的配置框中填寫Pai-Megatron-Patch鏡像地址:pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/pytorch-training:2.0-ubuntu20.04-py3.10-cuda11.8-megatron-patch-llm

    image

  5. 單擊確定,建立DSW執行個體。

安裝後使用

安裝Pai-Megatron-Patch鏡像後,您可以在Pai-Megatron-Patchexamples檔案夾中查看相關樣本並使用。