全部產品
Search
文件中心

AnalyticDB:Spark計算引擎

更新時間:Aug 13, 2024

Apache Spark是一個通用的開源的分散式處理系統,通常用於巨量資料工作負載。Spark既支援使用SQL,又支援編寫多種語言的DataFrame代碼,兼具易用性和靈活性。Spark通用化的引擎能力可以同時提供SQL、批處理、流處理、機器學習和圖計算的能力。

AnalyticDB for MySQL Serverless Spark是AnalyticDB for MySQL團隊基於Apache Spark打造的服務化的巨量資料分析與計算服務,該資源歸屬於使用者,開通AnalyticDB for MySQL服務後只需簡單的配置,就可以提交Spark作業,無需關心Spark叢集部署。方案架構圖如下所示:Spark計算引擎

Serverless Spark將Spark、Serverless和雲原生技術深度整合到一起,相對於傳統開源Spark叢集版方案,具有以下優勢:

  • 使用門檻低

    • Serverless Spark屏蔽掉了底層的基礎組件,提供了簡單的API、指令碼以及控制台使用方式,開發人員瞭解開源Spark的使用方式就可以進行巨量資料業務開發。

  • 0營運

    • 使用者只需通過AnalyticDB for MySQL Serverless Spark介面管理Spark作業,無需關心伺服器配置以及Hadoop叢集配置,無需處理擴縮容等營運操作。

  • 作業級彈性

    • Serverless Spark按照Driver和Executor粒度申請建立資源,支援秒級拉起,可以快速響應業務資源需求。

  • 更低成本

    • Spark作業按需使用資源,不需要長期保有預留資源,使用時再彈起資源,並按彈起的資源計費。不使用不收取費用。

  • 良好的效能

    • AnalyticDB for MySQL團隊對Spark引擎做了深度定製和最佳化,如針對Object Storage Service的訪問,典型情境下效能可以提升至原來的3~5倍;同時Spark與AnalyticDB for MySQL數倉深度整合,典型情境下相比JDBC方式效能可以提升至原來的6倍;基於AnalyticDB for MySQL+Spark提供Zero-ETL解決方案。