SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.2.x)版本的更新内容。
JindoFS OSS扩展和支持
- 支持OSS多种免密获取Token的方式,允许自定义和扩展。
- 通过阿里云TableStore实现对Rename的并发操作的互斥。
- 支持通过Delta或Hudi写入数据至OSS。
JindoFS缓存优化
优化在AI训练场景下小文件元数据的缓存,提升元数据预加载操作和List操作的性能。
JindoTable计算优化
- JindoTable集成了AliORC,提供Native ORC Reader。JindoTable支持Spark和Presto使用Native ORC Reader读取ORC文件,以提升计算读取性能。
- Presto支持JindoTable访问热度统计,统计Hive表访问频次。
JindoFS生态支持
Spark写入OSS文件时,支持配置spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false
,允许作业不生成_SUCCESS文件。