全部產品
Search
文件中心

AnalyticDB:概述

更新時間:Feb 05, 2024

AnalyticDB PostgreSQL版向量分析可以通過AI演算法提取非結構化資料的特徵,並利用特徵向量作為非結構化資料的唯一標識,幫您快速且低成本地實現對非結構化資料檢索和對結構化資料關聯分析。

向量資料庫簡介

在現實世界中,絕大多數的資料都是以非結構化資料的形式存在的,如圖片,音頻,視頻,文本等。這些非結構化資料隨著智慧城市、短視頻、商品個人化推薦、視覺商品搜尋等應用的出現而爆髮式增長。為了能夠處理這些非結構化資料,通常會使用人工智慧技術提取這些非結構化資料的特徵,並將其轉化為特徵向量,再對這些特徵向量進行分析和檢索以實現對非結構化資料的處理。因此,將能儲存、分析和檢索特徵向量的資料庫稱之為向量資料庫。

向量資料庫使用向量索引技術來實現對特徵向量的快速檢索。向量索引通常屬於近似最近鄰搜尋(Approximate Nearest Neighbors Search,ANNS)範疇。其核心思想是不僅僅返回最精確的結果項,而是只搜尋可能是近鄰的資料項目,以提高檢索效率。通過在可接受範圍內犧牲一定的精確度,實現了向量資料庫與傳統資料庫的顯著區別。

為了將ANNS向量索引更加方便地應用到實際的生產環境中,目前業界主要有兩種實踐方式。

  • 一種是單獨將ANNS向量索引服務化,以提供向量索引建立和檢索的能力,從而形成一種專有的向量資料庫

  • 另一種是將ANNS向量索引融合到傳統結構化資料庫中,形成一種具有向量檢索功能的DBMS

雲原生資料倉儲AnalyticDB PostgreSQL版的向量資料庫是整合自研向量檢索引擎FastANN的DBMS,在包含向量檢索功能的同時,還具備一站式的資料庫能力,如易用性(直接使用SQL的方式處理向量)、事務、高可用性、高可擴充性等等。

功能說明

向量資料庫實現向量分析的原理是通過AI演算法提取非結構化資料的特徵,然後利用特徵向量作為非結構化資料的唯一標識,向量間的距離用于衡量非結構化資料之間的相似性。AnalyticDB PostgreSQL版向量檢索分析基於MPP查詢架構構建,協助您實現基於SQL介面進行非結構化資料檢索,並支援同結構化資料的關聯分析。

典型應用情境

通過AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各種智能化應用。

  • 以圖搜圖服務,即通過圖片檢索圖片的應用服務。

  • 視頻檢索服務,即通過視頻中的某些幀圖片進行視頻圖片檢索,來實現視頻檢索。

  • 聲紋檢索服務,即通過音頻匹配音訊應用服務。

  • 推薦系統服務,即通過使用者特徵匹配實現推薦匹配的功能。

  • 基於語義的文本檢索和推薦,通過文本檢索近似文本。

  • 問答機器人,通過與大模型結合搭建高效的問答機器人服務。

  • 檔案去重,通過檔案指紋特徵來去除重複檔案。

優勢

雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫通過自研向量引擎FastANN提供的向量分析能力目前已經在諸多業務中得到了廣泛應用,包括阿里巴巴資料中台,阿里巴巴電商新零售業務,阿里雲城市大腦,通義千問大模型搭建的問答服務等。

與其他向量資料庫對比,主要有以下優點:

  • 結構化與非結構化資料的混合分析。

    雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫通過結合本身傳統資料庫的能力可以實現非結構化資料和結構化、半結構化資料的混合分析,並且能充分利用結構化和半結構化的索引能力。

  • 向量檢索與全文檢索索引的雙路召回。

    雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫本身既支援向量索引也支援全文索引,因此它可以通過向量檢索與全文檢索索引實現雙路召回,極大地提高向量資料的召回準確性。

  • 資料即時更新和即時查詢。

    雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫實現了向量資料的流式匯入與即時構建。

  • 易用性。

    雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫申請即可使用,並且支援標準SQL文法,使用非常簡單,可以極大簡化開發流程。

  • 低成本。

    雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫支援將FP32壓縮成FP16,降低一半儲存成本。另一方面,雲原生資料倉儲AnalyticDB PostgreSQL版向量資料庫的向量索引構建在段頁式儲存上,可以充分利用PostgreSQL的shared_buffer進行緩衝換入換出的機制,因此雲原生資料倉儲AnalyticDB PostgreSQL版的向量索引可以支援超過記憶體大小的向量儲存。