SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.4.x)版本的更新内容。
JindoFS OSS扩展和支持
- 新增OSS recoverable OutputStream功能,支持Flush和Recover API。适用于高可靠写入场景,例如Flume。
- 优化OSS Rename操作性能,结合OSS服务端提升Rename操作的执行时间。
- 优化OSS多版本下的List操作性能,避免Bucket多版本下大量临时文件影响目录的List性能。
- 优化OSS多版本JindoMagicCommitter性能,新增JindoDirectCommitter。
- 增强Credentials Provider框架,新增JindoCommonCredentialsProvider。
- 优化文件Create操作的性能,去掉OSS写入时的冗余检查。
JindoFS存储优化
JindoFS Block模式支持数据加密,加密密钥支持阿里云密钥管理服务KMS(Key Management Service)和国际AES加密算法。
JindoTable计算优化
完善Native Orc Reader,Block模式支持新的免密方式。
JindoFS工具集
增强JindoDistcp,优化增量迁移场景。例如,迁移HDFS数据至OSS时,实现迁移路径的Checksum比对。
JindoFS生态支持
新增Python版本的Jindo OSS SDK,支持基本的OSS操作,兼容OSS2 Python库。