本文為您介紹OSS和OSS-HDFS的使用方式、優點和特性對比。
背景資訊
阿里雲Object Storage Service(Object Storage Service)是一款海量、安全、低成本、高可靠的雲端儲存體服務,可提供99.9999999999%(12個9)的資料持久性,99.995%的資料可用性。多種儲存類型供選擇,全面最佳化儲存成本。更多資訊,請參見什麼是Object Storage Service。
OSS-HDFS服務(JindoFS服務)是一款雲原生資料湖儲存產品。基於統一的中繼資料管理能力,在完全相容HDFS檔案系統介面的同時,提供充分的POSIX能力支援,能更好地滿足巨量資料和AI等領域的資料湖計算情境。更多資訊,請參見什麼是OSS-HDFS服務。
JindoData是阿里雲開源巨量資料團隊自研的資料湖儲存加速套件,面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。JindoData套件基於統一架構和核心實現,主要包括 JindoFS 儲存系統(原JindoFS Block模式),JindoFSx儲存加速系統(原JindoFS Cache模式),JindoSDK巨量資料萬能SDK和全面相容的生態工具(JindoFuse、JindoDistCp)、外掛程式支援。更多資訊,請參見JindoData概述。
使用方式
- 在EMR環境中,已經預設部署JindoSDK,您可以直接通過JindoSDK來訪問OSS或OSS-HDFS。
- 在非EMR環境中,您可以通過下載最新版本的JindoSDK自行部署使用。具體操作,請參見在非EMR叢集中部署JindoSDK。
優點
使用OSS或OSS-HDFS作為底層儲存具有以下優勢:
- 隨插即用。OSS和OSS-HDFS是雲原生儲存服務,通過Restful API提供服務,本身無需部署。在阿里雲EMR叢集中,已預設安裝 JindoSDK,您可以通過JindoSDK直接存取。
- 節省成本。使用OSS或OSS-HDFS儲存資料可以有效節省成本,結合低頻、歸檔和冷歸檔等方式,可以進一步最佳化冷資料的儲存成本。
- 可擴充性。OSS和OSS-HDFS具有更好的可擴充性,不受硬碟容量限制,無需人工擴容。
特性
通過JindoSDK使用OSS和OSS-HDFS的特性對比如下:
情境 | 特性 | OSS | OSS-HDFS |
巨量資料情境(Hadoop) | 支援目錄、檔案語義和操作 | 支援 | 支援 |
添加目錄、檔案許可權 | 不支援 | 支援 | |
目錄原子性、rename效能 | 支援,但效能不佳 | 支援,毫秒級 | |
通過setTimes設定時間 | 不支援 | 支援 | |
擴充屬性XAttrs | 不支援 | 支援 | |
ACL | 不支援 | 支援 | |
本地讀緩衝加速 | 支援 | 支援 | |
快照Snapshot | 不支援 | 支援 | |
檔案append、flush和sync操作 | 不支援 | 支援 | |
檔案truncate | 不支援 | 支援 | |
校正和Checksum | 支援 | 支援 | |
HDFS資源回收筒自動清理 | 不支援 | 支援 | |
AI情境(POSIX) | 中繼資料一致性 | 弱 | 強 |
檔案append、flush和sync操作 | 支援,但有使用限制 | 支援 | |
檔案truncate操作 | 不支援 | 支援 | |
隨機寫 | 不支援 | 支援 |