SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData(3.6.x)版本的更新内容。
JindoFS
此版本中JindoFS的新特性如下表所示。
特性 | 描述 |
---|---|
JindoFS支持多云和S3协议及缓存加速 | JindoFS实现对S3协议的支持,具备访问亚马逊S3及其他S3协议系统的能力,并且还支持缓存加速功能,使访问更高效。 |
JindoFS支持HDFS缓存加速 | JindoFS访问HDFS新增支持缓存加速,使访问更高效。 |
JindoFS支持MetaSync和Data Cache事务性 | JindoFS元数据缓存上支持了事务性加载的可选项,能够保证整个预加载任务的事务性,保证加载过程中不会在元数据视图上出现非完整的中间状态。 |
JindoFS优化缓存预加载机制 |
|
JindoSDK
此版本中JindoSDK的新特性如下表所示。
特性 | 描述 |
---|---|
JindoSDK支持本地缓存(Local)策略 | JindoSDK支持本地缓存策略,使得在未部署SmartData服务的情况下,也能支持本地数据缓存,提高OSS数据的访问效率。 |
JindoSDK支持和FileSystem平级的Object Store API | JindoSDK在已有FileSystem语义支持的基础上,新增支持平级的Object Store API语义,与对象存储系统OSS等有更直接的对应关系,方便使用。Object Store API优化了Copy和Rename等操作,提升了执行效率。 |
JindoSDK支持OSS服务端缓存优化 | JindoSDK支持OSS加速器功能,开启后,您可以根据加速器的容量定制OSS的访问带宽。 |
JindoSDK支持OSS二级域名Endpoint | JindoSDK新功能,开启后,支持在特定环境下,使用二级域名或者IP地址方式访问OSS服务。默认不开启二级域名Endpoint访问。 |
JindoTable
此版本中JindoTable的新特性如下表所示。
特性 | 描述 |
---|---|
JindoTable支持HDFS数据分层存储和归档到OSS | JindoTable新增命令,能够批量移动表或分区到OSS,并同步更新元数据。支持通过过滤条件选择分区,支持指定拷贝到OSS的存储策略。对于已经在OSS的数据,支持批量归档。 |
JindoTable支持OSS归档数据解冻和取回 | JindoTable新增命令,对于存储在OSS的数据,能够批量进行数据的解冻和取回。 |
JindoTable支持Presto查询加速Parquet数据 | JindoTable NativeEngine查询加速引擎能够支持Presto和Parquet组合的场景,显著提升Presto查询Parquet数据效率。 |
JindoTable支持Spark 3查询加速Parquet和ORC数据 | JindoTable NativeEngine查询加速引擎新增支持Spark 3计算引擎,同时支持Parquet和ORC格式的数据,全面提升Spark3查询效率。 |
JindoTable 支持查询加速HDFS存储上的数据 | JindoTable NativeEngine查询加速引擎新增支持HDFS存储,Spark和Presto能够通过NativeEngine高效读取HDFS文件。 |
JindoTable支持分析OSS访问日志 | 支持使用SQL语句分析OSS访问日志。 |
JindoFuse
此版本中JindoFuse的新特性如下表所示。
特性 | 描述 |
---|---|
JindoFuse完善支持训练和在线场景 | JindoFuse新增支持指定JindoFS命名空间挂载,或者以SDK模式指定OSS目录挂载。 |