SmartData是E-MapReduce(简称EMR)产品的核心自研组件,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展,涵盖数据访问、数据治理和数据安全。
SmartData组件在EMR产品中的位置如下所示。
SmartData组件包括:
- JindoFS核心子系统:为各种远端存储系统提供缓存和缓存加速,详情请参见JindoFS介绍和使用。
- JindoTable核心子系统:为表格数据源(例如Hive数仓)提供表和分区级别的优化和治理,详情请参见JindoTable使用说明。
- JindoManager:提供JindoFS&JindoTable相关服务和功能的管理页面,例如,查看文件和表在缓存上的各种统计指标。
- JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。
- 工具集: 提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。
- 各种Connectors:包括Hadoop connector、Flink connector和TensorFlow connector,支持Kite SDK、Apache Beams、Flume、Sqoop和Kafka。
SmartData目前通过JindoFS和JindoTable支持的数据源,包括阿里云OSS、Apache Hadoop HDFS、Hive数仓和阿里云MaxCompute。
SmartData作为EMR产品核心自研组件,独立开发与版本发布,详细版本请参见版本概述。