云原生数据湖架构核心组成部分
数据湖是一个可存储任意规模结构化和非结构化数据,支持大数据和AI计算的集中式存储库。作为云原生数据湖架构核心组成部分,数据湖构建(Data Lake Formation,DLF)可以帮助您简单快速地构建云原生数据湖解决方案,提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎。
• 数据易采集 体系化的数据采集能力,海量的存储服务,支持结构化/半结构化/非结构化数据源
• 架构更灵活 计算存储分离,资源规划和架构更灵活,减少成本浪费,提升效率,应对业务的快速变化
• 数据易管理 统一存储,冷热分层生命周期管理,解决数据分散在各个集群,数据拷贝等运维困扰
• 价值易提取 通过数据湖对接多种计算分析平台,打破数据孤岛,洞察业务价值
应用场景
应用场景
典型场景
基于阿里云开源大数据生态系统(E-MapReduce,实时计算Flink,DLA等产品)来构建数据处理分析平台;
数据量飞速膨胀导致存储资源与计算资源扩容速度不匹配,需进行成本优化;
统一管理不同存储中的元数据:大数据生态的丰富,用户的数据来源广泛,元数据分散较难管理。
方案价值
-
元数据管理
数据湖构建支持自动采集发现多引擎元数据,可做到统一管理,避免数据孤岛
生态优势
阿里云大数据团队提供专家级服务支持
应用场景
典型场景
数据仓库和数据湖,是大数据架构的两种设计取向。
优点:
数据湖优先:通过开放底层文件存储,给数据入湖带来最大的灵活性;
数据仓库优先:更加关注数据使用效率、大规模下的数据管理、安全/合规等企业级成长性需求。
随着用户业务的逐渐清晰与沉淀,用户面临着数据湖和数据仓库架构的融合,依托于阿里云数据仓库(MaxCompute、Hologres、ADB等产品)和数据湖构建产品,帮助用户打造湖仓一体的数据系统,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。
方案价值
-
免运维
数据湖构建产品提供用户全托管服务,仅需简单点击操作,就可以协助用户快速搭建起云上的数据湖系统
安全有保证
统一权限管理体系,可做到对数据库、表、列的权限控制。
应用场景
典型场景
期望实现:
对存储在OSS中的大量不同类型数据进行各种多种维度的分析查询,如实时数据分析、OLAP查询,并将对应的结果反馈到业务系统中;
在数据查询时能够直接便捷对接云上多种计算引擎,不需要提取全部数据到查询系统。
方案价值
-
实时数据入湖
提供数据实时入湖能力,提供业务时效性
元数据自动发现
数据湖构建可以自动对数据进行抓取、编排和准备,以进行分析,避免复杂手动操作
应用场景
典型场景
在经典机器学习场景和深度学习场景下利用数据湖服务用户;
在机器学习场景下,用户面临数据量大,模型训练慢,算法效果差的问题,需要数据湖具备能够对接成熟的机器学习平台的能力,同时动态的调整对GPU资源的使用,节约成本。
方案价值
-
易用性强
数据湖构建无缝对接阿里云机器学习平台,同时提供多种Open API,方便用户集成
数据规范化
数据湖构建支持用户在入湖时对数据进行清洗处理、标准化,方便后续使用机器学习模型分析
行业应用场景
在线教育数据湖实践
用户数过亿的某在线教育平台
客户需求
集中存储并统一管理课件素材、应用日志、学习采样等数据
对不同类型数据提供课件播放、离线分析、机器学习,实现在线教育不同场景的应用
客户价值
数据湖构建完美适配数据存储OSS,同时对接大量计算引擎,满足用户不同的分析需求
在线游戏数据湖实践
亚洲领先的某互动娱乐公司
客户需求
通过数据分析,及时调整游戏关卡难度,掉宝率,资源产出率,保证用户的游戏体验、提高用户留存率
提升云上资源的灵活扩展和升级能力,解决传统的大数据集群计算和存储资源紧绑定的问题,提供用户更多弹性能力
客户价值
数据湖构建帮助用户快速搭建云上数据湖服务,解决存储计算资源问题,同时对接实时计算分析引擎,可以帮助用户实时调整业务
互娱新媒体数据湖实践
月活用户数破亿的某互联网新媒体平台
客户需求
统一管理多个存储系统的元数据,提供数据的共享分析能力,服务业务发展
客户价值
利用数据湖构建将分散的元数据统一集中管理,特有的发现能力可以从用户数据库和对象存储中收集并按目录分类数据