SmartData組件是EMR Jindo引擎的儲存部分,為EMR各個計算引擎提供統一的儲存、緩衝、計算最佳化以及功能擴充。SmartData組件主要包括JindoFS、JindoTable和相關工具集。本文介紹SmartData(3.4.x)版本的更新內容。
JindoFS OSS擴充和支援
- 新增OSS recoverable OutputStream功能,支援Flush和Recover API。適用於高可靠寫入情境,例如Flume。
- 最佳化OSS Rename操作效能,結合OSS服務端提升Rename操作的執行時間。
- 最佳化OSS多版本下的List操作效能,避免Bucket多版本下大量臨時檔案影響目錄的List效能。
- 最佳化OSS多版本JindoMagicCommitter效能,新增JindoDirectCommitter。
- 增強Credentials Provider架構,新增JindoCommonCredentialsProvider。
- 最佳化檔案Create操作的效能,去掉OSS寫入時的冗餘檢查。
JindoFS儲存最佳化
JindoFS Block模式支援資料加密,加密金鑰支援阿里雲Key Management Service(Key Management Service)和國際AES密碼編譯演算法。
JindoTable計算最佳化
完善Native Orc Reader,Block模式支援新的免密方式。
JindoFS工具集
增強JindoDistcp,最佳化增量遷移情境。例如,遷移HDFS資料至OSS時,實現遷移路徑的Checksum比對。
JindoFS生態支援
新增Python版本的Jindo OSS SDK,支援基本的OSS操作,相容OSS2 Python庫。