JindoData是阿里雲開源巨量資料團隊自研的資料湖儲存加速套件,面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。
JindoData套件基於統一架構和核心實現,主要包括JindoFS儲存系統(原JindoFS Block模式)、JindoFSx儲存加速系統(原JindoFS Cache模式),JindoSDK巨量資料萬能SDK和全面相容的生態工具(JindoFuse、JindoDistCp)以及外掛程式支援。
注意事項
JindoData適用於EMR-5.14.0及之前版本,EMR-3.48.0及之前版本。
EMR-5.15.0及之後版本、EMR-3.49.0及之後版本,不支援選擇JindoData。您可以使用JindoCache來實現緩衝功能,使用DLF-Auth來實現鑒權功能。
JindoFS儲存系統
基於阿里雲OSS的雲原生儲存系統,二進位相容Apache HDFS,並且與Apache HDFS準系統對齊,提供最佳化的HDFS使用和平遷體驗。JindoFS儲存系統是原JindoFS Block模式的全新升級版本。
阿里雲OSS-HDFS服務(JindoFS服務)是JindoFS儲存系統在阿里雲上的服務化部署形態,和阿里雲OSS深度融合,開箱即用,無須在自建叢集部署維護JindoFS,即免營運。
OSS-HDFS服務的詳細資料,請參見什麼是OSS-HDFS服務。
JindoFSx儲存加速系統
JindoFSx(JindoData服務)是原JindoFS Cache模式的全新升級版本,是面向巨量資料和AI生態的雲原生資料湖儲存加速系統,為巨量資料和AI應用訪問各種雲端儲存提供訪問加速,支援資料緩衝、中繼資料快取和P2P加速等功能。JindoFSx支援管理多個後端儲存系統,可以通過統一命名空間進行管理,也可以相容各系統原生的訪問協議,也支援為這些系統提供統一的許可權管理。原生最佳化支援阿里雲OSS和阿里雲OSS-HDFS服務,同時也支援業界多雲Object Storage Service(例如,Amazon S3)、 Apache HDFS和NAS。
生態支援和工具
支援JindoSDK。
支援面向雲時代的巨量資料Hadoop SDK和HDFS介面,內建最佳化訪問阿里雲OSS,較Hadoop社區版本效能大幅提升。同時支援JindoFS儲存系統和服務、JindoFSx儲存加速系統,支援多雲Object Storage Service。
支援JindoShell CLI。
JindoData除了支援HDFS Shell命令,還提供了一套JindoShell CLI命令,從功能、效能上大幅擴充和最佳化一些資料訪問操作。
支援JindoFuse POSIX。
JindoData為阿里雲OSS、JindoFS儲存系統和服務、JindoFSx儲存加速系統提供了POSIX支援。
支援JindoDistCp資料移轉。
IDC機房資料(HDFS)上雲遷移和多雲遷移利器,支援多種儲存資料移轉到阿里雲OSS和JindoFS服務,使用上類似Hadoop DistCp。
支援JindoTable。
結合計算引擎的使用推出的一套解決方案,支援Spark、Hive和Presto等引擎,以及表格式資料的管理功能。
生態外掛程式。
除了預設提供JindoSDK支援Hadoop,另外還支援Flink Connector等外掛程式。