SmartData是E-MapReduce(簡稱EMR)產品的核心自研組件,為EMR各個計算引擎提供統一的儲存最佳化、緩衝最佳化、計算加速最佳化和多個儲存功能擴充,涵蓋資料訪問、資料治理和資料安全。
SmartData組件在EMR產品中的位置如下所示。
SmartData組件包括:
JindoFS核心子系統:為各種遠端儲存系統提供緩衝和緩衝加速,詳情請參見JindoFS介紹和使用。
JindoTable核心子系統:為表格式資料源(例如Hive數倉)提供表和分區層級的最佳化和治理,詳情請參見JindoTable使用說明。
JindoManager:提供JindoFS&JindoTable相關服務和功能的管理頁面,例如,查看檔案和表在緩衝上的各種統計指標。
JindoSDK:為EMR各種開源計算引擎提供統一的SDK,支援Java、C、C++和Python語言,提供多種訪問和API介面,包括HCFS檔案系統介面、POSIX介面和Table表格介面。
工具集: 提供相關的工具集,例如Jindo tool和遷移工具Jindo DistCp。
各種Connectors:包括Hadoop connector、Flink connector和TensorFlow connector,支援Kite SDK、Apache Beams、Flume、Sqoop和Kafka。
SmartData目前通過JindoFS和JindoTable支援的資料來源,包括阿里雲OSS、Apache Hadoop HDFS、Hive數倉和阿里雲MaxCompute。
SmartData作為EMR產品核心自研組件,獨立開發與版本發布,詳細版本請參見發行版本。