SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData(3.6.x)版本的更新内容。

JindoFS

此版本中JindoFS的新特性如下表所示。

特性 描述
JindoFS支持多云和S3协议及缓存加速 JindoFS实现对S3协议的支持,具备访问亚马逊S3及其他S3协议系统的能力,并且还支持缓存加速功能,使访问更高效。
JindoFS支持HDFS缓存加速 JindoFS访问HDFS新增支持缓存加速,使访问更高效。
JindoFS支持MetaSync和Data Cache事务性 JindoFS元数据缓存上支持了事务性加载的可选项,能够保证整个预加载任务的事务性,保证加载过程中不会在元数据视图上出现非完整的中间状态。
JindoFS优化缓存预加载机制
  • 优化了元数据和数据缓存的预加载机制,提升了执行效率。
  • 优化进度反馈。
  • 支持了针对超大目录的任务。

JindoSDK

此版本中JindoSDK的新特性如下表所示。

特性 描述
JindoSDK支持本地缓存(Local)策略 JindoSDK支持本地缓存策略,使得在未部署SmartData服务的情况下,也能支持本地数据缓存,提高OSS数据的访问效率。
JindoSDK支持和FileSystem平级的Object Store API JindoSDK在已有FileSystem语义支持的基础上,新增支持平级的Object Store API语义,与对象存储系统OSS等有更直接的对应关系,方便使用。Object Store API优化了Copy和Rename等操作,提升了执行效率。
JindoSDK支持OSS服务端缓存优化 JindoSDK支持OSS加速器功能,开启后,您可以根据加速器的容量定制OSS的访问带宽。
JindoSDK支持OSS二级域名Endpoint JindoSDK新功能,开启后,支持在特定环境下,使用二级域名或者IP地址方式访问OSS服务。默认不开启二级域名Endpoint访问。

JindoTable

此版本中JindoTable的新特性如下表所示。

特性 描述
JindoTable支持HDFS数据分层存储和归档到OSS JindoTable新增命令,能够批量移动表或分区到OSS,并同步更新元数据。支持通过过滤条件选择分区,支持指定拷贝到OSS的存储策略。对于已经在OSS的数据,支持批量归档。
JindoTable支持OSS归档数据解冻和取回 JindoTable新增命令,对于存储在OSS的数据,能够批量进行数据的解冻和取回。
JindoTable支持Presto查询加速Parquet数据 JindoTable NativeEngine查询加速引擎能够支持Presto和Parquet组合的场景,显著提升Presto查询Parquet数据效率。
JindoTable支持Spark 3查询加速Parquet和ORC数据 JindoTable NativeEngine查询加速引擎新增支持Spark 3计算引擎,同时支持Parquet和ORC格式的数据,全面提升Spark3查询效率。
JindoTable 支持查询加速HDFS存储上的数据 JindoTable NativeEngine查询加速引擎新增支持HDFS存储,Spark和Presto能够通过NativeEngine高效读取HDFS文件。
JindoTable支持分析OSS访问日志 支持使用SQL语句分析OSS访问日志。

JindoFuse

此版本中JindoFuse的新特性如下表所示。

特性 描述
JindoFuse完善支持训练和在线场景 JindoFuse新增支持指定JindoFS命名空间挂载,或者以SDK模式指定OSS目录挂载。