JindoData - 开源大数据平台E-MapReduce

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。

JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、JindoFSx存储加速系统（原JindoFS Cache模式），JindoSDK大数据万能SDK和全面兼容的生态工具（JindoFuse、JindoDistCp）以及插件支持。

注意事项

JindoData适用于EMR-5.14.0及之前版本，EMR-3.48.0及之前版本。

EMR-5.15.0及之后版本、EMR-3.49.0及之后版本，不支持选择JindoData。您可以使用JindoCache来实现缓存功能，使用DLF-Auth来实现鉴权功能。

JindoFS存储系统

基于阿里云OSS的云原生存储系统，二进制兼容Apache HDFS，并且与Apache HDFS基本功能对齐，提供优化的HDFS使用和平迁体验。JindoFS存储系统是原JindoFS Block模式的全新升级版本。

阿里云OSS-HDFS服务（JindoFS服务）是JindoFS存储系统在阿里云上的服务化部署形态，和阿里云OSS深度融合，开箱即用，无须在自建集群部署维护JindoFS，即免运维。

OSS-HDFS服务的详细信息，请参见什么是OSS-HDFS服务。

JindoFSx存储加速系统

JindoFSx（JindoData服务）是原JindoFS Cache模式的全新升级版本，是面向大数据和AI生态的云原生数据湖存储加速系统，为大数据和AI应用访问各种云存储提供访问加速，支持数据缓存、元数据缓存和P2P加速等功能。JindoFSx支持管理多个后端存储系统，可以通过统一命名空间进行管理，也可以兼容各系统原生的访问协议，也支持为这些系统提供统一的权限管理。原生优化支持阿里云OSS和阿里云OSS-HDFS服务，同时也支持业界多云对象存储（例如，Amazon S3）、 Apache HDFS和NAS。

生态支持和工具

支持JindoSDK。
支持面向云时代的大数据Hadoop SDK和HDFS接口，内置优化访问阿里云OSS，较Hadoop社区版本性能大幅提升。同时支持JindoFS存储系统和服务、JindoFSx存储加速系统，支持多云对象存储。
支持JindoShell CLI。
JindoData除了支持HDFS Shell命令，还提供了一套JindoShell CLI命令，从功能、性能上大幅扩展和优化一些数据访问操作。
支持JindoFuse POSIX。
JindoData为阿里云OSS、JindoFS存储系统和服务、JindoFSx存储加速系统提供了POSIX支持。
支持JindoDistCp数据迁移。
IDC机房数据（HDFS）上云迁移和多云迁移利器，支持多种存储数据迁移到阿里云OSS和JindoFS服务，使用上类似Hadoop DistCp。
支持JindoTable。
结合计算引擎的使用推出的一套解决方案，支持Spark、Hive和Presto等引擎，以及表格式数据的管理功能。
生态插件。
除了默认提供JindoSDK支持Hadoop，另外还支持Flink Connector等插件。