建立資料索引,利用檔案的中繼資料和向量語義作為查詢條件,快速尋找OSS中的圖片、視頻、文檔、音頻檔案。
OSS資料索引的優勢
簡單易用:直接使用OSS構建的資料索引,無需搬遷資料和自建檢索系統。
多模態支援:支援多種索引類型,包括OSS中繼資料、媒體中繼資料、自訂中繼資料、向量語義;提供近百種檢索條件。
高效能檢索:實現秒級索引和彙總,能夠構建最大支援百億檔案的索引庫,滿足大規模資料處理需求。
支援的資料檢索方式
OSS支援標量檢索和向量檢索兩種檢索方式:
專案 | 標量檢索 | 向量檢索 |
定義 | 基於OSS中繼資料、對象ETag、對象標籤等中繼資料屬性進行匹配查詢 | 通過將文檔、圖片、視頻、音頻等檔案的資訊表示為向量,並利用這些向量進行語義相似性的比較和檢索,實現根據檔案內容進行語意查詢 |
使用情境 | 檔案查詢、檔案統計 | 多模態檢索、複雜檔案檢索 |
查詢條件樣本 | 查詢2024年9月14日上傳的、私人的、標準儲存的檔案 | 查詢和“蘋果”相關的圖片 |
返回結果樣本 | 返回2024年9月14日上傳的、私人的、標準儲存的檔案清單 | 返回和“蘋果”相關的圖片檔案清單 |
如何選擇資料檢索方式
根據所需的檢索條件,參考下表選擇標量檢索或向量檢索:
檢索條件 | 標量檢索 | 向量檢索 |
OSS中繼資料 | ✅ | ✅ |
對象標籤和對象ETag | ✅ | ✅ |
自訂中繼資料 | ❌ | ✅ |
多媒體中繼資料 | ❌ | ✅ |
向量語義 | ❌ | ✅ |
關於標量檢索支援的所有中繼資料欄位,請參見附錄:標量檢索的欄位和操作符列表。
關於向量檢索支援的所有中繼資料欄位,請參見附錄:向量檢索的欄位和操作符列表。
如何進行資料檢索
對OSS中的資料進行標量檢索和向量檢索的流程如下:
進行標量檢索
對OSS中的檔案基於中繼資料屬性進行查詢的流程如下圖所示:
應用上傳圖片、視頻、文檔、音頻等檔案到OSS Bucket。
具備OSS系統管理權限的RAM使用者為Bucket開啟資料索引,並選擇標量檢索。
OSS使用系統預設的索引表結構,自動建立包含OSS中繼資料、對象ETag、對象標籤的資料索引。
應用調用DoMetaQuery介面基於中繼資料屬性進行查詢。
OSS返回滿足查詢條件的檔案清單。
進行向量檢索
對OSS中的檔案基於中繼資料屬性和向量語義進行組合查詢的流程如下圖所示:
應用上傳圖片、視頻、文檔、音頻等檔案到OSS Bucket。
具備OSS系統管理權限的RAM使用者為Bucket開啟資料索引,並選擇向量檢索。
OSS使用系統預設的索引表結構和Embedding向量化模型,自動建立包含OSS中繼資料、對象ETag、對象標籤、自訂中繼資料、多媒體中繼資料、向量語義的資料索引。
應用調用DoMetaQuery介面基於中繼資料屬性和向量語義進行組合查詢。
OSS返回滿足查詢條件的檔案清單。
開始進行資料檢索
進行標量檢索和向量檢索的詳細步驟請參見: