什么是向量分析 - 云原生数据仓库AnalyticDB

AnalyticDB PostgreSQL版向量分析可以通过AI算法提取非结构化数据的特征，并利用特征向量作为非结构化数据的唯一标识，帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。

向量数据库简介

在现实世界中，绝大多数的数据都是以非结构化数据的形式存在的，如图片，音频，视频，文本等。这些非结构化数据随着智慧城市、短视频、商品个性化推荐、视觉商品搜索等应用的出现而爆发式增长。为了能够处理这些非结构化数据，通常会使用人工智能技术提取这些非结构化数据的特征，并将其转化为特征向量，再对这些特征向量进行分析和检索以实现对非结构化数据的处理。因此，将能存储、分析和检索特征向量的数据库称之为向量数据库。

向量数据库使用向量索引技术来实现对特征向量的快速检索。向量索引通常属于近似最近邻搜索（Approximate Nearest Neighbors Search，ANNS）范畴。其核心思想是不仅仅返回最精确的结果项，而是只搜索可能是近邻的数据项，以提高检索效率。通过在可接受范围内牺牲一定的精确度，实现了向量数据库与传统数据库的显著区别。

为了将ANNS向量索引更加方便地应用到实际的生产环境中，目前业界主要有两种实践方式。

一种是单独将ANNS向量索引服务化，以提供向量索引创建和检索的能力，从而形成一种专有的向量数据库。
另一种是将ANNS向量索引融合到传统结构化数据库中，形成一种具有向量检索功能的DBMS。

云原生数据仓库AnalyticDB PostgreSQL版的向量数据库是集成自研向量检索引擎FastANN的DBMS，在包含向量检索功能的同时，还具备一站式的数据库能力，如易用性（直接使用SQL的方式处理向量）、事务、高可用性、高可扩展性等等。

功能说明

向量数据库实现向量分析的原理是通过AI算法提取非结构化数据的特征，然后利用特征向量作为非结构化数据的唯一标识，向量间的距离用于衡量非结构化数据之间的相似度。AnalyticDB PostgreSQL版向量检索分析基于MPP查询架构构建，帮助您实现基于SQL接口进行非结构化数据检索，并支持同结构化数据的关联分析。

典型应用场景

通过AnalyticDB PostgreSQL版向量分析，您可以非常容易地搭建各种智能化应用。

以图搜图服务，即通过图片检索图片的应用服务。
视频检索服务，即通过视频中的某些帧图片进行视频图片检索，来实现视频检索。
声纹检索服务，即通过音频匹配音频的应用服务。
推荐系统服务，即通过用户特征匹配实现推荐匹配的功能。
基于语义的文本检索和推荐，通过文本检索近似文本。
问答机器人，通过与大模型结合搭建高效的问答机器人服务。
文件去重，通过文件指纹特征来去除重复文件。

优势

云原生数据仓库AnalyticDB PostgreSQL版向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛应用，包括阿里巴巴数据中台，阿里巴巴电商新零售业务，阿里云城市大脑，通义千问大模型搭建的问答服务等。

与其他向量数据库对比，主要有以下优点：

结构化与非结构化数据的混合分析。
云原生数据仓库AnalyticDB PostgreSQL版向量数据库通过结合本身传统数据库的能力可以实现非结构化数据和结构化、半结构化数据的混合分析，并且能充分利用结构化和半结构化的索引能力。
向量检索与全文检索的双路召回。
云原生数据仓库AnalyticDB PostgreSQL版向量数据库本身既支持向量索引也支持全文索引，因此它可以通过向量检索与全文检索实现双路召回，极大地提高向量数据的召回准确性。
数据实时更新和实时查询。
云原生数据仓库AnalyticDB PostgreSQL版向量数据库实现了向量数据的流式导入与实时构建。
易用性。
云原生数据仓库AnalyticDB PostgreSQL版向量数据库申请即可使用，并且支持标准SQL语法，使用非常简单，可以极大简化开发流程。
低成本。
云原生数据仓库AnalyticDB PostgreSQL版向量数据库支持将FP32压缩成FP16，降低一半存储成本。另一方面，云原生数据仓库AnalyticDB PostgreSQL版向量数据库的向量索引构建在段页式存储上，可以充分利用PostgreSQL的shared_buffer进行缓存换入换出的机制，因此云原生数据仓库AnalyticDB PostgreSQL版的向量索引可以支持超过内存大小的向量存储。