SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.5.x)版本的更新内容。
JindoFS OSS扩展和支持
优化OSS删除目录的性能。
JindoSDK
- Java使用JindoSDK时,JindoSDK日志输出到Java日志中,以提高可诊断性。
- 新增SDK端使用内存统计日志,可以看到当前JindoSDK使用的内存大小。
JindoTable计算优化
- JindoTable新增native加速功能,可以对使用Spark、Hive或Presto读取存储在OSS和JindoFS上的ORC或Parquet格式的文件进行加速,详情请参见开启native查询加速。
- Hive支持JindoTable冷度统计,以统计Hive表访问频次,详情请参见JindoTable表或分区访问冷度收集。
JindoFS工具集
增强JindoDistcp,支持通过阿里云监控(CloudMonitor)服务监控告警失败任务、移除了对AVX指令集的依赖、并新增使用冷归档方式写入OSS等功能,详情请参见Jindo DistCp使用说明。