SmartData組件是EMR Jindo引擎的儲存部分,為EMR各個計算引擎提供統一的儲存、緩衝、計算最佳化以及功能擴充。SmartData組件主要包括JindoFS、JindoTable和相關工具集。本文為您介紹SmartData(3.6.x)版本的更新內容。
JindoFS
此版本中JindoFS的新特性如下表所示。
特性 | 描述 |
JindoFS支援多雲和S3協議及緩衝加速 | JindoFS實現對S3協議的支援,具備訪問亞馬遜S3及其他S3協議系統的能力,並且還支援緩衝加速功能,使訪問更高效。 |
JindoFS支援HDFS緩衝加速 | JindoFS訪問HDFS新增支援緩衝加速,使訪問更高效。 |
JindoFS支援MetaSync和Data Cache事務性 | JindoFS中繼資料快取上支援了事務性載入的可選項,能夠保證整個預先載入任務的事務性,保證載入過程中不會在中繼資料視圖上出現非完整的中間狀態。 |
JindoFS最佳化緩衝預先載入機制 |
|
JindoSDK
此版本中JindoSDK的新特性如下表所示。
特性 | 描述 |
JindoSDK支援本機快取(Local)策略 | JindoSDK支援本機快取策略,使得在未部署SmartData服務的情況下,也能支援本機資料緩衝,提高OSS資料的訪問效率。 |
JindoSDK支援和FileSystem平級的Object Store API | JindoSDK在已有FileSystem語義支援的基礎上,新增支援平級的Object Store API語義,與Object Storage Service系統OSS等有更直接的對應關係,方便使用。Object Store API最佳化了Copy和Rename等操作,提升了執行效率。 |
JindoSDK支援OSS服務端緩衝最佳化 | JindoSDK支援OSS加速器功能,開啟後,您可以根據加速器的容量定製OSS的訪問頻寬。 |
JindoSDK支援OSS次層網域Endpoint | JindoSDK新功能,開啟後,支援在特定環境下,使用次層網域或者IP地址方式訪問OSS服務。預設不開啟次層網域Endpoint訪問。 |
JindoTable
此版本中JindoTable的新特性如下表所示。
特性 | 描述 |
JindoTable支援HDFS資料階層式存放區和歸檔到OSS | JindoTable新增命令,能夠批量移動表或分區到OSS,並同步更新中繼資料。支援通過過濾條件選擇分區,支援指定拷貝到OSS的儲存策略。對於已經在OSS的資料,支援批量歸檔。 |
JindoTable支援OSS歸檔資料解凍和取回 | JindoTable新增命令,對於儲存在OSS的資料,能夠批量進行資料的解凍和取回。 |
JindoTable支援Presto查詢加速Parquet資料 | JindoTable NativeEngine查詢加速引擎能夠支援Presto和Parquet組合的情境,顯著提升Presto查詢Parquet資料效率。 |
JindoTable支援Spark 3查詢加速Parquet和ORC資料 | JindoTable NativeEngine查詢加速引擎新增支援Spark 3計算引擎,同時支援Parquet和ORC格式的資料,全面提升Spark3查詢效率。 |
JindoTable 支援查詢加速HDFS儲存上的資料 | JindoTable NativeEngine查詢加速引擎新增支援HDFS儲存,Spark和Presto能夠通過NativeEngine高效讀取HDFS檔案。 |
JindoTable支援分析OSS訪問日誌 | 支援使用SQL語句分析OSS訪問日誌。 |
JindoFuse
此版本中JindoFuse的新特性如下表所示。
特性 | 描述 |
JindoFuse完善支援訓練和線上情境 | JindoFuse新增支援指定JindoFS命名空間掛載,或者以SDK模式指定OSS目錄掛載。 |