測試結果 - Data Lake Analytics - Deprecated

本次測試採用3種不同的測試情境，針對開源自建的Hadoop+Spark叢集與阿里雲雲原生資料湖分析DLA Spark在執行Terasort基準測試的效能做了對比分析。本文檔主要展示了開源自建Spark和DLA Spark在3種測試情境下的測試結果及效能對比分析。

1 TB測試資料下DLA Spark+OSS與自建Hadoop+Spark叢集效能對比結果

叢集類型	運行Terasort基準測試集耗時（h）
DLA Spark+OSS	0.701
自建Hadoop+Spark	0.733

通過上述耗時對比結果可以看出，作業效能上DLA Spark跟自建Spark基本持平。

需要強調的是，DLA Spark完全按需使用儲存和計算資源，對OSS訪問實現了深度定製最佳化，效能相比於最佳化前提升1倍左右，與Spark訪問HDFS效能持平。

10 TB測試資料下DLA Spark+OSS與自建Hadoop+Spark效能對比結果

叢集類型	運行Terasort基準測試集耗時（h）
DLA Spark+OSS	5.2
自建Hadoop+Spark	13.9

在分析效能時發現，在10 TB情境下，本地碟的儲存和shuffle之間會有IO頻寬上的明顯爭搶，而Serverless Spark計算節點內建essd雲端硬碟，與shuffle盤完全獨立，能較高的提升效能。

1 TB測試資料下DLA Spark+使用者自建Hadoop叢集與自建Hadoop+Spark效能對比結果

叢集類型	運行Terasort基準測試集耗時（min）
DLA Spark+OSS	43.5
自建Hadoop+Spark	44.8

您可以將自建Hadoop和DLA Spark混合使用，自建Hadoop叢集在高峰期需要更多的計算資源。DLA Spark可以直接跟您的VPC網路打通，直接使用內網的頻寬，計算效能相對於本地計算並沒有降低。DLA Spark完全彈性的模式，1分鐘內可以拉起500~1000個計算節點，可以很好滿足您對彈性計算的需求。