全部產品
Search
文件中心

E-MapReduce:SmartData 3.2.x版本簡介

更新時間:Jul 01, 2024

SmartData組件是EMR Jindo引擎的儲存部分,為EMR各個計算引擎提供統一的儲存、緩衝、計算最佳化以及功能擴充。SmartData組件主要包括JindoFS、JindoTable和相關工具集。本文介紹SmartData(3.2.x)版本的更新內容。

JindoFS OSS擴充和支援

  • 支援OSS多種免密擷取Token的方式,允許自訂和擴充。
  • 通過阿里雲TableStore實現對Rename的並行作業的互斥。
  • 支援通過Delta或Hudi寫入資料至OSS。

JindoFS緩衝最佳化

最佳化在AI訓練情境下小檔案中繼資料的緩衝,提升中繼資料預先載入操作和List操作的效能。

JindoTable計算最佳化

  • JindoTable整合了AliORC,提供Native ORC Reader。JindoTable支援Spark和Presto使用Native ORC Reader讀取ORC檔案,以提升計算讀取效能。
  • Presto支援JindoTable訪問熱度統計,統計Hive表訪問頻次。

JindoFS生態支援

Spark寫入OSS檔案時,支援配置spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false,允許作業不產生_SUCCESS檔案。