MaxFrame是由阿里雲自研的分散式運算架構,支援Python編程介面、相容Pandas介面且自動進行分散式運算。您可利用MaxCompute的海量計算資源及資料進行大規模資料處理、可視化資料探索分析以及科學計算、ML/AI開發等工作。
背景資訊
在當今資料驅動時代,巨量資料處理和人工智慧(AI)技術的高效應用成為了企業和研究機構不可或缺的一部分。Python憑藉其豐富的第三方開發生態(例如NumPy、Pandas和Scikit-learn)在資料科學領域內提供了強大的支援,但這些工具往往受限於單機或單核計算能力,難以滿足分布式巨量資料處理的需求。
為滿足使用者在Python生態中日益增長的高效巨量資料處理和AI開發需求,MaxCompute提供了基於Python編程介面的分散式運算架構MaxFrame,可直接使用雲原生巨量資料服務MaxCompute海量計算資源進行分布式執行,同時與MaxCompute Notebook、鏡像管理等功能共同構成了MaxCompute Python開發生態。
MaxFrame簡介
MaxFrame分散式運算架構,支援Python編程介面,並能直接利用MaxCompute的計算資源和資料介面,使得Python開發人員可以更加高效、便捷地進行大規模資料處理和AI模型開發。MaxFrame不僅完全相容Pandas介面,且自動實現分散式處理,您能夠以更熟悉、高效的方式利用MaxCompute海量計算資源及資料完成資料處理、可視化探索、科學計算及ML/AI開發工作。架構圖如下:
特點優勢
更熟悉的開發習慣
MaxFrame提供Python編程介面,百分百相容Pandas運算元,且運算元提交至MaxCompute自動分布式執行,不再受本地資源大小限制。
更高效的資料處理能力
MaxFrame直接在MaxCompute叢集中進行資料分散式運算,運行時無需將資料拉取至本地處理,消除了不必要的本機資料傳輸,提高作業執行效率。
更便捷的開發體驗
MaxFrame已與MaxCompute Notebook、DataWorks整合,提供開箱即用的互動式開發環境及離線調度能力;MaxFrame支援在代碼開發中直接引用MaxCompute內建鏡像(Pandas、Numpy、XGBoost等)及使用者自訂鏡像,且支援Python3.7和Python3.11版本,無需考慮複雜的環境準備及相容問題。
適用情境
MaxCompute MaxFrame使用情境如下:
Python生態開發:對於需要開箱即用的Python環境,並迅速進行資料處理、資料科學和互動式資料探索的開發人員而言,MaxFrame提供了一個理想的解決方案。
大規模資料分析與處理:當資料量龐大、處理邏輯複雜時,MaxFrame藉助MaxCompute海量資料和計算資源的分布式能力,顯著提高資料分析、處理及資料採礦的開發效率。
Data+AI開發:對於整個分布式資料開發和模型開發過程依賴於第三方或自訂鏡像的情境,MaxFrame提供完整的支援,以滿足從資料處理到AI模型訓練與部署的需要。
支援的工具
MaxFrame支援在本地環境、DataWorks中使用。詳情請參見準備工作。
支援人員
若您在使用MaxFrame的過程中有任何問題,可使用DingTalk掃描如下二維碼加入MaxFrame官方使用者支援群,MaxFrame團隊將全力為您提供支援人員。