SmartData組件是EMR Jindo引擎的儲存部分,為EMR各個計算引擎提供統一的儲存、緩衝、計算最佳化以及功能擴充。SmartData組件主要包括JindoFS、JindoTable和相關工具集。本文介紹SmartData(3.2.x)版本的更新內容。
JindoFS OSS擴充和支援
- 支援OSS多種免密擷取Token的方式,允許自訂和擴充。
- 通過阿里雲TableStore實現對Rename的並行作業的互斥。
- 支援通過Delta或Hudi寫入資料至OSS。
JindoFS緩衝最佳化
最佳化在AI訓練情境下小檔案中繼資料的緩衝,提升中繼資料預先載入操作和List操作的效能。
JindoTable計算最佳化
- JindoTable整合了AliORC,提供Native ORC Reader。JindoTable支援Spark和Presto使用Native ORC Reader讀取ORC檔案,以提升計算讀取效能。
- Presto支援JindoTable訪問熱度統計,統計Hive表訪問頻次。
JindoFS生態支援
Spark寫入OSS檔案時,支援配置spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false
,允許作業不產生_SUCCESS檔案。