本文为您介绍OSS和OSS-HDFS的使用方式、优点和特性对比。
背景信息
阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。更多信息,请参见什么是对象存储OSS。
OSS-HDFS服务(JindoFS服务)是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。更多信息,请参见什么是OSS-HDFS服务。
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式),JindoFSx存储加速系统(原JindoFS Cache模式),JindoSDK大数据万能SDK和全面兼容的生态工具(JindoFuse、JindoDistCp)、插件支持。更多信息,请参见JindoData概述。
使用方式
在EMR环境中,已经默认部署JindoSDK,您可以直接通过JindoSDK来访问OSS或OSS-HDFS。
在非EMR环境中,您可以通过下载最新版本的JindoSDK自行部署使用。具体操作,请参见在非EMR集群中部署JindoSDK。
优点
使用OSS或OSS-HDFS作为底层存储具有以下优势:
即插即用。OSS和OSS-HDFS是云原生存储服务,通过Restful API提供服务,本身无需部署。在阿里云EMR集群中,已默认安装 JindoSDK,您可以通过JindoSDK直接访问。
节省成本。使用OSS或OSS-HDFS存储数据可以有效节省成本,结合低频、归档和冷归档等方式,可以进一步优化冷数据的存储成本。
可扩展性。OSS和OSS-HDFS具有更好的可扩展性,不受硬盘容量限制,无需人工扩容。
特性
通过JindoSDK使用OSS和OSS-HDFS的特性对比如下:
场景 | 特性 | OSS | OSS-HDFS |
大数据场景(Hadoop) | 支持目录、文件语义和操作 | 支持 | 支持 |
添加目录、文件权限 | 不支持 | 支持 | |
目录原子性、rename性能 | 支持,但性能不佳 | 支持,毫秒级 | |
通过setTimes设置时间 | 不支持 | 支持 | |
扩展属性XAttrs | 不支持 | 支持 | |
ACL | 不支持 | 支持 | |
本地读缓存加速 | 支持 | 支持 | |
快照Snapshot | 不支持 | 支持 | |
文件append、flush和sync操作 | 不支持 | 支持 | |
文件truncate | 不支持 | 支持 | |
校验和Checksum | 支持 | 支持 | |
HDFS回收站自动清理 | 不支持 | 支持 | |
AI场景(POSIX) | 元数据一致性 | 弱 | 强 |
文件append、flush和sync操作 | 支持,但有使用限制 | 支持 | |
文件truncate操作 | 不支持 | 支持 | |
随机写 | 不支持 | 支持 |