JindoData是阿里雲開源巨量資料團隊自研的資料湖儲存加速套件,面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。本文為您介紹JindoData各版本支援的功能。
背景資訊
JindoData是原阿里雲EMR SmartData組件的升級版本。具體介紹請參見JindoData概述。
JindoData 4.6.x版本
概要
JindoData 4.6.x版本推出平滑遷移功能,支援HDFS到OSS-HDFS平滑遷移。可以極大的簡化資料移轉流程。JindoFS儲存系統支援檔案清單功能,您可以基於檔案清單功能更好瞭解資料的分布以及歸屬。在效能最佳化方面,JindoFS儲存系統通過存量以及增量的方式最佳化Du和Count效能,顯著提升Du和Count操作效能。對於JindoSDK而言,JindoSDK 4.6.x版本支援檔案以及資料區塊層級的校正,提高JindoSDK寫入鏈路的穩定性。此外,JindoSDK還支援多重路徑訪問協議,支援不同協議模式訪問同一後端路徑。
JindoData 4.6.11版本
JindoData 4.6.11版本修複了以下問題:
JindoSDK修複了使用JindoCommitter在Aliyun EMR Hadoop 2.8.5環境下使用老的mapred介面寫資料的問題。
最佳化了JindoTable,針對OSS上的表或分區進行解凍的功能,支援設定解凍天數,詳情請參見使用JindoTable實現對OSS上表或分區的歸檔和解凍。
JindoData 4.6.10版本
JindoData4.6.10版本修複了以下問題:
最佳化了JindoFS 的pread預讀邏輯。
JindoSDK支援並發commit task,最佳化了作業commit效能。
最佳化了JindoSDK路徑改寫的邏輯。
修複了JindoFuse在對象append時遇到的問題。
JindoData 4.6.8版本
JindoData4.6.8版本修複了以下問題:
JindoFS支援用戶端設定資源回收筒保留時間。
JindoSDK支援通過MALLOC_CONF最佳化記憶體使用量。
JindoFuse支援在掛載OSS-HDFS時進行優雅的退出。
JindoFSx支援通過萬用字元篩選緩衝預熱的檔案清單。
JindoFSx修複清理緩衝不生效的問題。
JindoData 4.6.7版本
JindoData4.6.7版本修複了以下問題:
JindoFuse支援優雅退出機制。
JindoFuse最佳化了日誌輸出。
修複了JindoFuse在掛載OSS時,不支援O_APPEND或O_TRUNC的問題。
JindoData 4.6.6版本
最佳化了distjob或distcp任務的並行度,同時保證並行度最大不超過任務數量。
JindoData 4.6.5版本
JindoData4.6.5版本是在4.6.4版本基礎上進行了大量修複和最佳化,包括以下內容:
添加了OSS scheme的ServiceLoader,指向JindoOssFileSystem。
最佳化了isDirectory()方法的異常邏輯,對於帶有
Path *
的目錄,isDirectory()介面返回false,而不是拋出IllegalPath異常。最佳化了Hadoop SDK,解決了在部分情境下可能出現的Hadoop配置並發修改異常ConcurrentModificationException的問題。
最佳化了臨時目錄異常或者出現壞盤時,JindoMagicCommitter用戶端寫OSS的重試邏輯,以最大程度保證作業寫入成功並避免InvalidPart異常
One or more of the specified parts could not be found or the specified entity tag might not have matched the part's entity tag.
。
JindoData 4.6.4版本
JindoData 4.6.4版本新增多平台支援。
支援平台請參見JindoData下載。
對於Java平台,可以通過部署多個jindo-core實現多平台支援。預設情況下,jindo-core支援主流的Linux系統,如果需要在其他平台上使用,則需要額外引入對應平台的擴充包。
JindoData的Maven倉庫已經同步上傳了多平台支援的依賴包。以訪問OSS為例,使用Maven構建專案時,您可以參考依賴配置jindosdk_ide_hadoop.md。
例如,如果要在主流Linux上部署Hadoop叢集 ,則需要將jindo-core-4.6.4.jar和jindo-sdk-4.6.4.jar添加到指定的classpath中。如果要在macOS上運行和調試,則需要jindo-core-4.6.4.jar和jindo-sdk-4.6.4.jar,並且還需要引入jindo-core-macos-10_14-x86_64-4.6.4.jar拓展包。
請前往JindoData下載頁面下載jindosdk-4.6.10-macos-10_14-x86_64.tar.gz,其中包含了本樣本所需的jindo-core-4.6.4.jar、jindo-sdk-4.6.4.jar和jindo-core-macos-10_14-x86_64-4.6.4.jar拓展包。
JindoData 4.6.2版本
JindoData4.6.2版本是在4.6.1版本基礎上做了大量的修複。JindoFS儲存系統修複如下:
JindoFS儲存系統
修複階層式存放區STD轉STD時導致服務卡住問題。
修複階層式存放區產生空manifest導致服務卡住問題。
加速階層式存放區任務執行速度。
修複RootPolicy功能邏輯。
修複setAcl偶發服務crash問題。
修複低機率發生DB manifest檔案佔滿磁碟的問題。
修複遷移服務的批量中繼資料匯入功能。
JindoData 4.6.1版本
JindoFS儲存系統
JindoFS減少一些冗餘日誌列印。
修複中繼資料清單匯出沒有close的檔案時大小錯誤問題。
JindoFSx儲存加速系統
JindoFSx支援緩衝臨時目錄實現自清理。
JindoSDK和工具支援
最佳化JindoSDK輸出體積過大問題。
Du、Count預設開啟通過服務端最佳化路徑。
降低STS更新頻率,避免頻繁發送請求導致限流。
免密URL的RAM改為小寫,避免ECS免密服務內部重新整理token失敗。
JindoData 4.6.0版本
JindoFS儲存系統
JindoFS支援OSS-HDFS檔案清單匯出功能,您可以基於檔案清單功能更好的瞭解資料分布以及二次開發。
JindoFS通過服務端存量和增量的最佳化,顯著提高Du和Count操作的效能。
JindoFS支援HDFS到OSS-HDFS平滑遷移功能,極大的簡化HDFS到OSS-HDFS資料移轉流程。
JindoFS支援多重路徑協議訪問,您可以使用不同訪問協議訪問同一後端路徑。
JindoFSx儲存加速系統
修複JindoFSx用戶端寫緩衝時導致用戶端異常退出問題。
修複JindoFSx用戶端Metrics上報導致用戶端異常退出問題。
修複JindoFSx Ranger使用過程中記憶體流失問題。
JindoSDK和工具支援
JindoSDK支援CRC和MD5 Checksum校正,支援檔案層級以及資料區塊層級的寫入校正。
支援Jindo Sync資料同步工具,您可以不依賴Hadoop環境進行資料同步。
JindoSDK支援OSS-HDFS TensorFlow Connector。
JindoData 4.5.X版本
JindoData 4.5.1版本
版本概要
4.5.1版本是對4.5.0版本的小幅升級,進行了重要的修複和改進。JindoFS改進了服務穩定性以及一些異常情況處理。JindoFS和JindoFSx進一步改進自適應預讀演算法,提高預讀效率。JindoDistCp做了大量修複和最佳化,增強了資料拷貝過程的穩定性。JindoFuse採用了新的底層設計,進一步提高了效能。
主要功能
JindoFS儲存系統
JindoFS改進了記憶體使用量問題。
JindoFS添加
ASSUME_ROLE
錯誤的異常處理和日誌警示。JindoFS支援重試時更新動態AccessKey。
JindoFS進一步改進自適應預讀演算法,提升預讀效率。
JindoFS檔案隨機寫情境的讀寫路徑修複。
JindoFS支援CheckAccess介面。
JindoFSx儲存加速系統
JindoFSx進一步改進自適應預讀演算法,提升預讀效率。
JindoFSx支援路徑帶空格。
JindoFSx改進多副本讀可能存在熱點的問題。
JindoSDK和工具支援
Jindo命令提供完整的Hadoop命令覆蓋。
Jindo命令增加對HDFS的純Native支援,大幅提升效能和您使用體驗。
JindoDistCp支援對接阿里雲監控(CloudMonitor)。
JindoDistCp支援OSS資料移轉到HDFS路徑的CheckSum檢查。
JindoDistCp支援Job切分參數。
JindoDistCp修複拷貝過程中源檔案刪除錯誤處理邏輯。
JindoSDK最佳化隨機讀的記憶體佔用。
JindoFuse POSIX支援
JindoFuse使用Low-level API重新設計,大幅提高
readdir
等操作的效能。JindoFuse修複掛載JindoFSx後出現異常程式List根目錄問題。
JindoData 4.5.0版本
版本概要
JindoFS儲存系統上著重最佳化中繼資料的操作效能,使得相關中繼資料效能得到顯著的提升。完善JindoFS階層式存放區功能,支援低頻以及冷Archive Storage類型。支援批量寫入功能,最佳化大規模ETL作業效能。在SDK與生態組件方面,提供了去Hadoop依賴的Java SDK。
主要功能
JindoFS儲存系統
JindoFS中繼資料操作效能最佳化,相關中繼資料操作效能顯著提升。
JindoFS完善階層式存放區功能,支援低頻以及冷Archive Storage類型。
JindoFS支援批量寫入功能,最佳化大規模ETL作業效能。
JindoFS修複服務端授權錯誤時,訪問OSS會導致服務異常的問題。
JindoFSx儲存加速系統
JindoFSx修複Storage服務檔案控制代碼泄漏問題。
JindoFSx修複用戶端metrics上報安全執行緒問題。
JindoFSx最佳化遞迴建立父目錄效能。
JindoFSx最佳化路徑改寫功能效能。
JindoSDK和工具支援
JindoSDK支援自適應預讀演算法,提升預讀效率。
JindoSDK支援基於Table Store原子Rename功能。
JindoDistCp最佳化Diff功能,支援輸出Diff檔案。
JindoSDK統一處理重試錯誤,解決服務端IP變化導致的用戶端重現失敗問題。
JindoSDK提供了去Hadoop依賴的Java SDK,與HadoopSDK、ObjectSDK平級。
JindoFuse POSIX支援
JindoFuse修複JindoFSx開啟緩衝List操作導致的記憶體流失問題。
JindoData 4.4.x版本
版本概要
JindoFS儲存系統上實現階層式存放區和歸檔功能,利用阿里雲OSS的階層式存放區能力相容HDFS階層式存放區策略。該功能可以讓您選擇較低成本的儲存策略來儲存訪問頻率較低的資料,從而降低總的儲存成本。此外,JindoFS新支援了HDFS AuditLog功能,大幅提升了對Apache HDFS的介面相容、功能對齊和資料移轉能力。完善了OSS資料快速匯入和半託管JindoFS遷移。JindoFS功能目前通過阿里雲OSS-HDFS服務對外提供,詳細資料請參見什麼是OSS-HDFS服務。
在JindoFSx儲存加速系統上,JindoData 4.4.x版本支援了用戶端本機快取(LocalCache),提供了純用戶端的緩衝加速的能力,大幅改進和最佳化了在中繼資料快取上的能力,完善了對阿里雲NAS的緩衝加速上的支援。
在SDK與生態組件方面,大幅提升了多個操作上的效能和吞吐,支援了Object SDK,在相容OSSObject Storage ServiceAPI的同時大幅提升了各項操作的效能,同時無縫對接JindoFSx加速能力。推出了JindoDistJob工具,支援半託管JindoFS全量和增量遷移檔案中繼資料,支援您在不遷移資料區塊的同時平穩切換到JindoFS服務化的方案上。大幅增強了JindoDistCp遷移工具,實現Apache HDFS到JindoFS服務的無損遷移,保證了檔案中繼資料的拷貝。
主要功能
JindoFS儲存系統
JindoFS支援階層式存放區和歸檔,相容HDFS儲存策略。
JindoFS支援BatchImport,提供了檔案資料大量匯入的能力。
JindoFS支援HDFS AuditLog審計日誌。
JindoFS支援Concat和SymLink介面。
JindoFS最佳化了檔案資料的後台清理能力。
JindoFS最佳化了Lease和Lock相關操作的效能。
JindoFSx儲存加速系統
JindoFSx支援快取區外掛程式,並提供了用戶端緩衝模式。
JindoFSx支援鑒權外掛程式化,預設情況下無須安裝KRB5和SASL庫依賴。
JindoFSx大幅最佳化了中繼資料快取效能,完善了對阿里雲NAS的緩衝加速的支援。
JindoSDK和工具支援
JindoSDK完善了對HTTPS的支援,改進了對弱網環境的容錯能力。
JindoSDK改進了部署,預設情況下去除了對KRB5和SASL庫的依賴。
JindoSDK增加支援OSSObject Storage ServiceAPI,大幅提升操作效能並無縫對接JindoFSx緩衝加速能力。
新增JindoDistJob工具,支援半託管JindoFS Block模式資料快速遷移到JindoFS服務。
JindoDistCp大幅完善對Apache HDFS到JindoFS服務的資料移轉能力,檔案中繼資料一起無損遷移。
JindoFuse POSIX支援
JindoFuse最佳化了大檔案順序讀的效能。
JindoData 4.3.x版本
版本概要
JindoData 4.3.0版本完全支援多雲架構,有能力同時具備多雲、多儲存、多種加速擴充、多協議和多種開發語言支援的資料湖儲存解決方案。JindoFS儲存系統在POSIX支援上做了大幅改進,JindoFSx系統首次支援Kerberos+Ranger安全擴充,JindoSDK和生態工具在測試覆蓋上也做了大幅提升。
主要功能
JindoSDK和工具支援
JindoSDK支援多雲端儲存,包括Amazon S3、COS和OBS。
JindoSDK提供JindoTable工具。
JindoSDK最佳化了Flink Connector外掛程式。
JindoSDK完善了JindoDistCp。
JindoFSx儲存加速系統
JindoFSx支援多雲端儲存,包括Amazon S3、COS和OBS。
JindoFSx最佳化了資料緩衝及中繼資料快取。
JindoFSx支援Kerberos+Ranger的鑒權方案。
JindoFSx大幅完善了可觀測性指標。
JindoFSx完成與Fluid的對接。
JindoFS儲存系統
JindoFS支援POSIX Lock和Fallocate能力。
JindoFS支援老版本JindoFS Block模式叢集升級。
JindoFuse POSIX支援
JindoFuse新增XAttr相關介面支援,包括Setxattr、Getxattr、Listxattr和Removexattr。
JindoFuse支援POSIX Lock和Fallocate能力。
JindoFuse支援OSS可追加寫對象,包括Append、Flush和邊寫邊讀功能。
JindoData 4.2.x版本
版本概要
JindoData 4.2.0版本大幅完善JindoFSx儲存加速系統,添加對Apache HDFS和阿里雲NAS儲存產品的緩衝加速,增強和提供JindoFuse、JindoDistCp和JindoTable等工具。
主要功能
JindoFSx儲存加速系統
支援對阿里雲Apache HDFS透明緩衝加速(保持
hdfs://
不變)和統一掛載加速(fsx://
)。支援對阿里雲NAS儲存產品提供統一掛載加速(
fsx://
)。全面對接和支援阿里雲OSS-HDFS服務(JindoFS服務),完善寫入路徑支援。
JindoSDK和工具支援
首次支援C/C++版本的JindoSDK,提供類似POSIX的介面方法。
支援JindoFuse POSIX,改進和完善JindoFuse工具,基於JindoSDK C/C++版本構建。
支援JindoDistCp資料移轉,重構和改進JindoDistCp工具,簡化和去除3.x版本中的不常用功能,增強易用性和健壯性。
支援JindoTable工具,重構和改進JindoTable工具,簡化和去除3.x版本中的不常用功能,增強易用性和健壯性。
JindoData 4.1.x版本
版本概要
JindoData 4.1.0版本在阿里雲OSS-HDFS服務(JindoFS服務)上支援隨機寫等重要特性,並添加JindoFSx儲存加速系統,支援對原生阿里雲OSS和OSS-HDFS服務(JindoFS服務)提供分布式緩衝。
主要功能
JindoFS儲存系統
JindoFS服務能力
支援檔案隨機寫,檔案可修改寫入。
支援HDFS資源回收筒,系統後台按到期時間清理資源回收筒檔案。
完善HDFS快照功能,快照支援隨機修改檔案。
改進目錄刪除機制,大幅提升操作效能。
實現NsWorker架構,支援中繼資料服務將一些繁重處理卸載到Follower、Learner節點上去執行。
JindoShell CLI支援
支援您使用命令設定HDFS資源回收筒到期時間。
支援快照功能
snapshotDiff
命令,查看兩個快照之間的差異。改進
dumpFile
命令,輸出隨機寫檔案相關資訊。
JindoFuse POSIX支援
支援檔案隨機修改(Seek and Write)。
JindoFSx儲存加速系統
JindoFSx核心能力
支援對阿里雲OSS透明緩衝加速(保持
oss://
不變)。支援對阿里雲OSS-HDFS服務(JindoFS服務)透明緩衝加速(保持
oss://
不變)。統一命名空間功能,支援將OSS或OSS-HDFS掛載到同一個命名空間,使用
fsx://
首碼進行統一操作。支援大規模檔案中繼資料快取加速。
支援小檔案訓練加速。
支援P2P加速,對大量訓練節點同時預熱載入模型檔案情境,大幅提升緩衝讀取效能。
JindoSDK Hadoop支援
提供
JindoOssFileSystem
支援OSS與OSS-HDFS的透明緩衝加速使用。提供
JindoFsxFileSystem
支援統一名字空間方式使用。
JindoShell CLI支援
支援JindoFSx資料緩衝命令。
支援JindoFSx中繼資料快取命令。
支援JindoFSx統一命名空間管理命令。
JindoFuse POSIX支援
支援
oss://
路徑Fuse掛載,讀寫JindoFSx緩衝。支援
fsx://
路徑Fuse掛載,讀寫JindoFSx緩衝。
JindoData 4.0.x版本
版本概要
JindoData 4.0.0是原阿里雲EMR SmartData自研組件(大版本到3.8.0)架構升級之後的首次版本發布,重點對接和支援了阿里雲OSS儲存產品和阿里雲OSS-HDFS服務(JindoFS服務)。
說明JindoData 4.0.0版本暫未發布JindoFSx儲存加速系統。
主要功能
阿里雲OSS服務
JindoSDK Hadoop支援
為阿里雲OSS提供了Java Hadoop SDK,完全相容Hadoop OSS Connector,大幅提升了效能。
支援多種Credential Provider設定方式,包括配置、ECS Role和EMR免密機制。
支援寫入時歸檔,包括歸檔和深冷歸檔。
JindoShell CLI支援
對Hadoop或HDFS Shell提供額外的命令擴充,為阿里雲OSS提供面向Hadoop使用的操作方式。
支援
ls2
擴充命令,在標準ls命令的基礎上可以額外顯示檔案或對象在OSS上的儲存狀態。例如,標準、低頻還是歸檔。支援
archive
命令,允許指定目錄進行轉歸檔操作。支援
restore
命令,允許指定目錄進行解凍操作。
JindoFuse POSIX支援
為阿里雲OSS提供最佳化後的Fuse用戶端,受益於完全Native代碼的開發實現,大幅提升了效能。
JindoDistCp資料移轉
支援將自建HDFS叢集資料移轉到阿里雲OSS,針對大檔案和大量小檔案情境最佳化。
阿里雲OSS-HDFS服務(JindoFS服務)
JindoFS服務
為阿里雲OSS產品增加一種新的Bucket儲存選項,提供中繼資料加速功能,二進位相容且功能全面對齊Apache HDFS,支援HDFS您平遷上雲。
原生支援檔案系統目錄語義,大幅最佳化目錄操作,超大目錄Rename支援原子性和毫秒級能力。
原生支援檔案系統檔案語義,支援HDFS寫租約、一寫多讀和邊寫邊讀。
支援檔案
append
寫入、flush
、sync
和truncate
操作。支援HDFS快照,支援近乎無限次快照數量,方便資料備份、容災和恢複。
支援檔案許可權。使用者組資訊支援您通過
JindoShell
命令匯入設定(UserGroupsMapping)。支援Hadoop Proxy User存取控制機制。
JindoSDK Hadoop支援
JindoSDK內建支援訪問阿里雲OSS-HDFS服務(JindoFS服務),提供全面的HDFS介面訪問和使用體驗。
JindoShell CLI支援
提供Hadoop、HDFS Shell額外的命令擴充,為阿里雲OSS-HDFS服務(JindoFS服務)提供面向Hadoop使用的操作方式。
支援您通過HDFS命令和JindoShell擴充命令使用HDFS快照功能,詳情請參見Snapshot(試用)。
支援您使用命令匯入(UserGroupsMapping),設定使用者組資訊。
支援您使用命令設定Hadoop Proxy User規則。
JindoFuse POSIX支援
為阿里雲OSS-HDFS服務(JindoFS服務)提供最佳化的Fuse用戶端,受益於完全Native代碼的開發實現,大幅提升了效能。
已知問題
JindoSDK暫不支援OSS上超大檔案寫入(大於80 GB)。
JindoSDK暫不支援OSS Append方式寫入。
JindoSDK暫不支援OSS用戶端加密。
JindoSDK暫不支援老版本JindoFS Block模式和Cache模式。
阿里雲OSS-HDFS服務(JindoFS服務)暫不支援老版本JindoFS Block模式系統升級。需要您通過JindoDistCp遷移工具把資料從老系統遷移到新服務。