本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要展示了开源自建Spark和DLA Spark在3种测试场景下的测试结果及性能对比分析。
1 TB测试数据下DLA Spark+OSS与自建Hadoop+Spark集群性能对比结果
集群类型 | 运行Terasort基准测试集耗时(h) |
---|---|
DLA Spark+OSS | 0.701 |
自建Hadoop+Spark | 0.733 |
通过上述耗时对比结果可以看出,作业性能上DLA Spark跟自建Spark基本持平。
需要强调的是,DLA Spark完全按需使用存储和计算资源,对OSS访问实现了深度定制优化,性能相比于优化前提升1倍左右,与Spark访问HDFS性能持平。
10 TB测试数据下DLA Spark+OSS与自建Hadoop+Spark性能对比结果
集群类型 | 运行Terasort基准测试集耗时(h) |
---|---|
DLA Spark+OSS | 5.2 |
自建Hadoop+Spark | 13.9 |
在分析性能时发现,在10 TB场景下,本地盘的存储和shuffle之间会有IO带宽上的明显争抢,而Serverless Spark计算节点自带essd云盘,与shuffle盘完全独立,能较高的提升性能。
1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果
集群类型 | 运行Terasort基准测试集耗时(min) |
---|---|
DLA Spark+OSS | 43.5 |
自建Hadoop+Spark | 44.8 |
您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要更多的计算资源。DLA Spark可以直接跟您的VPC网络打通,直接使用内网的带宽,计算性能相对于本地计算并没有降低。DLA Spark完全弹性的模式,1分钟内可以拉起500~1000个计算节点,可以很好满足您对弹性计算的需求。