全部產品
Search
文件中心

Object Storage Service:什麼是OSS-HDFS服務

更新時間:Jun 19, 2024

OSS-HDFS服務(JindoFS服務)是一個雲原生資料湖儲存功能。基於統一的中繼資料管理能力,完全相容HDFS檔案系統介面,滿足巨量資料和AI等領域的資料湖計算情境。

注意事項

警告

當您為某個Bucket開通OSS-HDFS服務後,通過該服務寫入的資料將保留在OSS-HDFS的資料存放區目錄.dlsdata/下。為避免影響OSS-HDFS服務的正常使用或者引發資料丟失的風險,禁止以非OSS-HDFS提供的方式對目錄.dlsdata/及目錄下的Object執行寫入操作,例如重新命名目錄、刪除目錄或者刪除Object等。

開通OSS-HDFS服務後,您在使用涉及.dlsdata/目錄寫入操作的OSS其他功能時,可能存在資料丟失、資料汙染、資料無法正常訪問等風險。更多資訊,請參見使用前須知

費用說明

  • 中繼資料管理費用

    使用OSS-HDFS服務時,會產生中繼資料管理費用,但該計費項目暫不收費。

  • 資料使用費用

    使用OSS-HDFS服務時,資料區塊採用了OSS的儲存方式。因此,OSS的計量計費方式適用於OSS-HDFS服務中的資料區塊。更多資訊,請參見計費概述

功能優勢

通過OSS-HDFS服務,無需對現有的Hadoop、Spark巨量資料分析應用做任何修改。通過簡單的配置即可像在原生HDFS中那樣管理和訪問資料,同時獲得OSS無限容量、彈性擴充、更高的安全性、可靠性和可用性支撐。

作為雲原生資料湖基礎,OSS-HDFS在滿足EB級資料分析、億級檔案管理服務、TB級輸送量的同時,全面融合巨量資料儲存生態,除提供Object Storage Service扁平命名空間之外,還提供了階層命名空間服務。階層命名空間支援將對象組織到一個目錄階層中進行管理,並能通過統一中繼資料管理能力進行內部自動轉換。對Hadoop使用者而言,無需做資料複製或轉換就可以實現像訪問本地HDFS一樣高效的資料訪問,極大提升整體作業效能,降低了維護成本。

功能特性

功能特性

說明

參考文檔

Snapshot(試用)

您可以通過Snapshot進行資料備份和恢複。Snapshot在使用方式上與HDFS的快照功能完全相容,同時支援目錄層級的操作。

Snapshot

RootPolicy

您可以通過RootPolicy為OSS-HDFS服務設定自訂首碼,在無需修改原有訪問hdfs://首碼作業的基礎上,將作業直接運行在OSS-HDFS服務上。

通過RootPolicy訪問

ProxyUser

ProxyUser命令用於授權一個使用者代表其他使用者進行檔案系統操作。例如,某些敏感性資料只允許授權的特定使用者代表其他使用者進行訪問和操作。

ProxyUser

UserGroupsMapping

UserGroupsMapping用於配置使用者和使用者組之間的映射關係。

UserGroupsMapping

應用情境

OSS-HDFS服務提供全面的巨量資料和AI生態支援,其主要應用情境如下:

Hive、Spark離線數倉

OSS-HDFS服務原生支援檔案、目錄語義和操作,添加檔案和目錄許可權,支援目錄原子性、毫秒級rename操作,支援通過setTimes設定時間,擴充屬性(XAttrs)、ACL以及本地讀緩衝加速等特性。適用於開源Hive、Spark離線數倉。在ETL情境下相較於OSS標準儲存類型Bucket,OSS-HDFS服務具有更大的效能優勢。

OLAP

OSS-HDFS服務提供append、truncate、flush、sync、pwrite等基礎檔案操作。通過JindoFuse充分支援POSIX,可以在ClickHouse這類OLAP情境中替換本地磁碟來實現儲存與計算分離方案。同時,得益於緩衝系統進行加速,達到較優性價比。

HBase儲存與計算分離

OSS-HDFS服務原生支援檔案、目錄語義和操作,並支援flush操作,可用於替代HDFS用做HBase儲存與計算分離方案。相比HBase結合OSS標準儲存類型Bucket的方案,HBase結合OSS-HDFS服務依賴HDFS來存放WAL日誌,大幅簡化整體方案架構。更多資訊,請參見使用OSS-HDFS作為HBase的底層儲存

Realtime Compute

OSS-HDFS服務高效支援flush和truncate操作,可無縫替代HDFS在FlinkRealtime Compute應用情境下用做Sink、Checkpoint儲存方案。

資料移轉

OSS-HDFS服務作為新一代雲原生資料湖儲存,支援IDC HDFS平遷上雲,最佳化HDFS使用體驗,同時享受Auto Scaling、按需付費的成本效益,大幅最佳化儲存成本。JindoDistCp工具支援將HDFS檔案資料(包括檔案屬性等中繼資料)無縫遷入OSS-HDFS 服務,並基於HDFS Checksum提供快速比對。

引擎支援列表

生態類型

引擎/平台

參考文檔

開源生態

Flink

開源Flink使用JindoSDK處理OSS-HDFS服務的資料

Flume

Flume使用JindoSDK寫入OSS-HDFS服務

Hadoop

Hadoop使用JindoSDK訪問OSS-HDFS服務

HBase

HBase使用OSS-HDFS服務作為底層儲存

Hive

Hive使用JindoSDK處理OSS-HDFS服務中的資料

Impala

Impala使用JindoSDK查詢OSS-HDFS服務中的資料

Presto

Trino使用JindoSDK查詢OSS-HDFS服務中的資料

Spark

Spark使用JindoSDK查詢OSS-HDFS服務中的資料

阿里雲生態

EMR

在EMR Hive或Spark中訪問OSS-HDFS

Flink

Flume

使用Flume同步EMR Kafka叢集的資料至OSS-HDFS服務

HBase

HBase以EMR叢集的方式使用OSS-HDFS服務作為底層儲存

Hive

Hive以EMR叢集的方式處理OSS-HDFS服務中的資料

Impala

Impala以EMR叢集的方式查詢OSS-HDFS服務中的資料

Presto

Trino以EMR叢集的方式查詢OSS-HDFS服務中的資料

Spark

Spark以EMR叢集的方式處理OSS-HDFS服務中的資料

Sqoop

Sqoop以EMR叢集的方式讀寫OSS-HDFS服務的資料