全部产品
Search
文档中心

云原生数据仓库AnalyticDB:产品简介

更新时间:Sep 20, 2024

什么是AnalyticDB

AnalyticDB是阿里云自研的云原生实时数据仓库,支持从OLTP数据库和日志文件中实时写入数据,并秒级完成PB级数据分析。AnalyticDB采用云原生存算分离的架构,存储按量付费,计算弹性伸缩,同时具备离线处理与在线分析资源隔离的能力,满足企业对于数据处理效率、成本控制、系统稳定性的要求。兼容MySQL、PostgreSQL和Spark生态。

AnalyticDB共有两个引擎,分别为AnalyticDB for MySQL和AnalyticDB for PostgreSQL。

对比项

AnalyticDB for MySQL

AnalyticDB for PostgreSQL

生态

高度兼容MySQL

高度兼容Spark

100%兼容PostgreSQL

高度兼容Oracle

架构

计算存储分离架构

扩展性

共同点

垂直变配

水平扩展

差异

支持Multi-Cluster模型实现资源自动弹性

支持MIN-MAX模型实现资源分时弹性和自动弹性

支持定时任务实现定时的自动弹性变配

支持Serverless形态实现按需自动弹性变配

重点功能

共同点

向量检索

全文检索

离线批处理

实时物化视图

差异

数据湖

Spark离线处理

查询性能的智能诊断与调优

RAG应用

时空分析

应用场景

共同点

实时数仓

实时日志分析

商业智能报表

差异

精准营销

多源联合分析

大数据存储分析

离线数据加速

其它数据湖或数据仓库业务迁移(Databricks/Athena/自建Spark/Presto等)

一站式搭建大模型应用

企业专属知识库

GIS 时空大数据分析

离在线一体数据分析

其他云数据仓库业务迁移(Greenplum、Redshift、Synapse、Snowflake、BigQuery等)

客户行业

游戏、零售、汽车

零售、电商、教育

节省成本

共同点

按实际数据量收取数据存储费用

冷热数据分离存储,降低数据存储的成本

根据规律的业务波峰波谷,自动定时弹性扩缩资源,既保障流量高峰的资源充足,又避免高峰过后的资源闲置浪费

差异

根据业务的实际负载,自动弹性扩缩资源

根据实际业务需要,手动启动或暂停实例

AnalyticDB for MySQL简介

湖仓版

数仓版基础上,同时满足低成本离线处理和高性能在线分析的湖仓一体化版本,称为湖仓版湖仓版在数据全链路的“采存算管用”5大方面都进行了全面升级。

湖仓版架构如下:

image

数据源

数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。

存储层+计算层

支持自研引擎,羲和计算引擎和玄武存储引擎。新增集成的开源引擎,Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更丰富的数据分析场景。同时打通自研和开源引擎之间的互相访问,提供更一体化的体验。

  • 存储层:只需一份全量数据,满足离线和在线场景。

    在线分析场景需要数据尽量在高性能存储介质上提高性能,离线场景需要数据尽量在低成本存储介质上降低存储成本。为满足不同场景需求,首先将一份全量数据存储在低成本高吞吐存储介质中,低成本离线处理场景直接读写低成本存储介质中的数据,可降低数据存储和数据IO成本,保证高吞吐。其次将实时数据存储在单独的存储IO节点(EIU)上,保证行级的数据实时性,同时对全量数据构建索引,并通过缓存能力对数据进行加速,满足百毫秒级高性能在线分析场景。

  • 计算层:羲和计算引擎,智能选择计算模式。开源Spark计算引擎,满足多种场景。

    羲和计算引擎同时提供MPP和BSP两种模式。MPP模式是一种流式计算模式,不适合离线处理低成本和高吞吐场景。BSP模式,通过DAG进行任务切分,分批调度,满足有限资源下大数据量计算,支持计算数据落盘。羲和计算引擎提供自动切换能力,即当查询使用MPP模式无法在一定耗时内完成时,系统会自动切换为BSP模式进行执行。

    湖仓版新增的开源Spark计算引擎可以满足更复杂的离线处理场景和机器学习场景。湖仓版中Spark计算层和存储层互相打通,您可以使用计算层资源来处理存储层数据,在创建和配置Spark资源组时更容易。

访问层

访问层通过统一计费单位、统一元数据和权限、统一开发语言、统一传输链路,提升开发效率。

数仓版

数仓版架构如下:

image

接入层

接入层由Multi-Master可线性扩展的协调节点构成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。

计算引擎

计算引擎具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。

存储引擎

存储引擎是基于Raft协议实现的分布式实时强一致高可用的引擎,通过数据分片和Multi-Raft实现并行,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到很好的性能。

在这三层架构之上,通过服务秒级恢复,支持跨可用区部署,自动故障检测、摘除和副本重搭。配合三副本存储、全量和增量备份,提供金融级别的数据可靠性。在周边生态上,提供数据迁移、数据同步、数据管理、数据集成、数据安全等配套工具,方便使用,使您能更加专注于业务发展。

AnalyticDB for PostgreSQL简介

image

AnalyticDB for PostgreSQL分为存储弹性模式和Serverless两种产品形态。存储弹性模式是基于ECS+ESSD云盘的Shared-Nothing架构采用MPP架构,Serverless是基于ECS+本地缓存+OSS远端存储的存储计算分离的Shared-Storage架构。

AnalyticDB for PostgreSQL实例包含一个协调节点(又称Master节点)和多个工作节点(又称Segment节点)。协调节点负责集群的元数据管理、负载均衡等。工作节点负责数据处理,工作节点内部包含Orca优化器、自研的Laser执行引擎和Beam存储引擎,实现查询的高性能,同时结合IMV实时物化视图组件,打造实时数仓。工作节点挂载的ESSD云盘负责热数据存储,而冷数据则存储在OSS中,通过冷热数据分层存储,兼顾查询性能和存储成本。工作节点的计算资源和存储资源,可独立扩缩容。

更多产品介绍

产品优势

应用场景