全部產品
Search
文件中心

Platform For AI:Transformer訓練加速(Pai-Megatron-Patch)

更新時間:Nov 30, 2024

Pai-Megatron-Patch結合了多種最佳化技術,對PyTorch版Transformer模型的訓練進行最佳化,從而達到最優的訓練效能。本文為您介紹Pai-Megatron-Patch的工作原理和使用流程。

背景資訊

Pai-Megatron-Patch工具是阿里雲Machine Learning Platform for AI演算法團隊研發,基於阿里雲智算服務PAI-靈駿平台的大模型最佳實務解決方案配套工具,旨在協助大模型開發人員快速上手靈駿產品,完成大語言模型(LLM)的高效分布式訓練,有監督指令微調,模型離線推理驗證等完整大模型開發鏈路。該專案提供了業界主流開源大模型基於Megatron-LM的訓練&離線推理驗證流程,方便使用者快速上手大模型訓練。

技術原理

Pai-Megatron-Patch旨在擴充Megatron-LM能力而不直接修改其源碼,通過補丁(patch)的形式提供額外功能。這種非侵入式的設計允許我們在不改變Megatron-LM核心庫的前提下,建立獨立的大型語言模型(LLM)訓練流程,確保與Megatron-LM的更新保持相容,從而不影響使用者的最佳實務體驗。

在Pai-Megatron-Patch中包含模型庫、分詞器、模型轉化工具、強化學習功能、離線文本產生,以及多個使用樣本和工具集,協助使用者快速部署大模型訓練和推理。

模型庫覆蓋了多個熱門的大型模型,如baichuan、bloom、chatglm、falcon、galactica、glm、llama、qwen和starcoder等。此外,補丁支援huggingface模型權重與Megatron模型權重之間的雙向轉換,便於使用者在Megatron環境下載入huggingface權重進行預訓練或微調,或者將Megatron模型權重轉換到huggingface環境下進行評估和推理。

對於強化學習,Pai-Megatron-Patch提供了如PPO訓練流程等,使使用者能夠使用SFT模型和RM模型進行訓練。Pai-Megatron-Patch的各種工具和樣本旨在為使用者提供一個全面的大模型訓練和評估的解決方案。

關於阿里雲靈駿產品的使用流程,請參見智算服務PAI靈駿大模型分布式訓練方案

使用流程

您可以參考如下流程使用Pai-Megatron-Patch:

  1. 安裝Pai-Megatron-Patch鏡像

  2. 參數配置指導

  3. 應用實踐:Transformer模型訓練加速

  4. 參考:效能基準評測