全部產品
Search
文件中心

E-MapReduce:OSS/OSS-HDFS概述

更新時間:Jul 01, 2024

本文為您介紹OSS和OSS-HDFS的使用方式、優點和特性對比。

背景資訊

阿里雲Object Storage Service(Object Storage Service)是一款海量、安全、低成本、高可靠的雲端儲存體服務,可提供99.9999999999%(12個9)的資料持久性,99.995%的資料可用性。多種儲存類型供選擇,全面最佳化儲存成本。更多資訊,請參見什麼是Object Storage Service

OSS-HDFS服務(JindoFS服務)是一款雲原生資料湖儲存產品。基於統一的中繼資料管理能力,在完全相容HDFS檔案系統介面的同時,提供充分的POSIX能力支援,能更好地滿足巨量資料和AI等領域的資料湖計算情境。更多資訊,請參見什麼是OSS-HDFS服務

JindoData是阿里雲開源巨量資料團隊自研的資料湖儲存加速套件,面向巨量資料和AI生態,為阿里雲和業界主要資料湖儲存系統提供全方位訪問加速解決方案。JindoData套件基於統一架構和核心實現,主要包括 JindoFS 儲存系統(原JindoFS Block模式),JindoFSx儲存加速系統(原JindoFS Cache模式),JindoSDK巨量資料萬能SDK和全面相容的生態工具(JindoFuse、JindoDistCp)、外掛程式支援。更多資訊,請參見JindoData概述

使用方式

  • 在EMR環境中,已經預設部署JindoSDK,您可以直接通過JindoSDK來訪問OSS或OSS-HDFS。
  • 在非EMR環境中,您可以通過下載最新版本的JindoSDK自行部署使用。具體操作,請參見在非EMR叢集中部署JindoSDK

優點

使用OSS或OSS-HDFS作為底層儲存具有以下優勢:
  • 隨插即用。OSS和OSS-HDFS是雲原生儲存服務,通過Restful API提供服務,本身無需部署。在阿里雲EMR叢集中,已預設安裝 JindoSDK,您可以通過JindoSDK直接存取。
  • 節省成本。使用OSS或OSS-HDFS儲存資料可以有效節省成本,結合低頻、歸檔和冷歸檔等方式,可以進一步最佳化冷資料的儲存成本。
  • 可擴充性。OSS和OSS-HDFS具有更好的可擴充性,不受硬碟容量限制,無需人工擴容。

特性

通過JindoSDK使用OSS和OSS-HDFS的特性對比如下:
情境特性OSSOSS-HDFS
巨量資料情境(Hadoop)支援目錄、檔案語義和操作支援支援
添加目錄、檔案許可權不支援支援
目錄原子性、rename效能支援,但效能不佳支援,毫秒級
通過setTimes設定時間不支援支援
擴充屬性XAttrs不支援支援
ACL不支援支援
本地讀緩衝加速支援支援
快照Snapshot不支援支援
檔案append、flush和sync操作不支援支援
檔案truncate不支援支援
校正和Checksum支援支援
HDFS資源回收筒自動清理不支援支援
AI情境(POSIX)中繼資料一致性
檔案append、flush和sync操作支援,但有使用限制支援
檔案truncate操作不支援支援
隨機寫不支援支援