全部产品
Search
文档中心

开源大数据平台E-MapReduce:OSS/OSS-HDFS

更新时间:Dec 13, 2024

本文为您介绍OSS和OSS-HDFS的使用方式、优点和特性对比。

背景信息

阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。更多信息,请参见什么是对象存储OSS

OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。更多信息,请参见什么是OSS-HDFS服务

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式),JindoFSx存储加速系统(原JindoFS Cache模式),JindoSDK大数据万能SDK和全面兼容的生态工具(JindoFuse、JindoDistCp)、插件支持。更多信息,请参见JindoData概述

使用方式

  • 在EMR环境中,已经默认部署JindoSDK,您可以直接通过JindoSDK来访问OSS或OSS-HDFS。

  • 在非EMR环境中,您可以通过下载最新版本的JindoSDK自行部署使用。具体操作,请参见在非EMR集群中部署JindoSDK

优点

使用OSS或OSS-HDFS作为底层存储具有以下优势:

  • 即插即用。OSS和OSS-HDFS是云原生存储服务,通过Restful API提供服务,本身无需部署。在阿里云EMR集群中,已默认安装 JindoSDK,您可以通过JindoSDK直接访问。

  • 节省成本。使用OSS或OSS-HDFS存储数据可以有效节省成本,结合低频、归档和冷归档等方式,可以进一步优化冷数据的存储成本。

  • 可扩展性。OSS和OSS-HDFS具有更好的可扩展性,不受硬盘容量限制,无需人工扩容。

特性

通过JindoSDK使用OSS和OSS-HDFS的特性对比如下:

场景

特性

OSS

OSS-HDFS

大数据场景(Hadoop)

支持目录、文件语义和操作

支持

支持

添加目录、文件权限

不支持

支持

目录原子性、rename性能

支持,但性能不佳

支持,毫秒级

通过setTimes设置时间

不支持

支持

扩展属性XAttrs

不支持

支持

ACL

不支持

支持

本地读缓存加速

支持

支持

快照Snapshot

不支持

支持

文件append、flush和sync操作

不支持

支持

文件truncate

不支持

支持

校验和Checksum

支持

支持

HDFS回收站自动清理

不支持

支持

AI场景(POSIX)

元数据一致性

文件append、flush和sync操作

支持,但有使用限制

支持

文件truncate操作

不支持

支持

随机写

不支持

支持