建立資料索引,利用檔案的中繼資料和向量語義作為查詢條件,快速尋找OSS中的圖片、視頻、文檔、音頻檔案。
為什麼使用資料索引
傳統的檔案檢索方式存在顯著局限性,OSS資料索引能有效彌補這些不足:
傳統檢索方式 | OSS資料索引 |
操作複雜:需使用ListObject遍曆並抽取中繼資料自建資料庫,耗時且繁瑣。 | 簡單易用:無需搬遷資料或自建檢索系統,直接通過自動OSS構建索引進行快速篩選和統計。 |
檢索效能低:海量資料下,檢索速度慢,效率低下。 | 高效能檢索:支援秒級索引和彙總,覆蓋百億層級的檔案索引庫。 |
檢索能力單一:僅支援 OSS 中繼資料檢索。 | 多模態支援:通過內容語義、檔案特徵化等進階方式滿足多樣化需求。 |
支援的資料檢索方式
OSS支援標量檢索和向量檢索兩種檢索方式:
專案 | 標量檢索 | 向量檢索 |
定義 | 基於OSS中繼資料、對象ETag、對象標籤等中繼資料屬性進行匹配查詢 | 通過將文檔、圖片、視頻、音頻等檔案的資訊表示為向量,並利用這些向量進行語義相似性的比較和檢索,實現根據檔案內容進行語意查詢 |
使用情境 | 檔案查詢、檔案統計。 | 多模態檢索、複雜檔案檢索。 |
查詢條件樣本 | 查詢2024年9月14日上傳的、私人的、標準儲存的檔案 | 查詢和“蘋果”相關的圖片 |
返回結果樣本 | 返回2024年9月14日上傳的、私人的、標準儲存的檔案清單 | 返回和“蘋果”相關的圖片檔案清單 |
如何選擇資料檢索方式
檢索條件對比表
檢索條件 | 標量檢索 | 向量檢索 |
OSS中繼資料 | ✅ | ✅ |
對象標籤和對象ETag | ✅ | ✅ |
自訂中繼資料 | ❌ | ✅ |
多媒體中繼資料 | ❌ | ✅ |
向量語義 | ❌ | ✅ |
關於標量檢索支援的所有中繼資料欄位,請參見附錄:標量檢索的欄位和操作符列表。
關於向量檢索支援的所有中繼資料欄位,請參見附錄:向量檢索的欄位和操作符列表。
典型使用情境推薦
降本統計
通過OSS中繼資料(如時間戳記)篩選業務中無用或可沉降資料,從而最佳化儲存成本。
推薦使用標量檢索。
資料驗證
對OSS資料進行處理或清洗後,使用OSS中繼資料對比清洗前後的資料量、檔案大小等,驗證清洗效果。
推薦使用標量檢索。
資料審計
為了滿足合規要求,您可以結合OSS中繼資料和向量語義,對檔案內容進行深度統計和審計。
推薦使用向量檢索。
多模態檢索
基於多媒體資料和向量語義進行檢索,適用於聊天記錄檢索、媒資庫內容檢索、語義檢索等情境。
推薦使用向量檢索。
如何進行資料檢索
對OSS中的資料進行標量檢索和向量檢索的流程如下:
進行標量檢索
對OSS中的檔案基於中繼資料屬性進行查詢的流程如下圖所示:
應用上傳圖片、視頻、文檔、音頻等檔案到OSS Bucket。
具備OSS系統管理權限的RAM使用者為Bucket開啟資料索引,並選擇標量檢索。
OSS使用系統預設的索引表結構,自動建立包含OSS中繼資料、對象ETag、對象標籤的資料索引。
應用調用DoMetaQuery介面基於中繼資料屬性進行查詢。
OSS返回滿足查詢條件的檔案清單。
進行向量檢索
對OSS中的檔案基於中繼資料屬性和向量語義進行組合查詢的流程如下圖所示:
應用上傳圖片、視頻、文檔、音頻等檔案到OSS Bucket。
具備OSS系統管理權限的RAM使用者為Bucket開啟資料索引,並選擇向量檢索。
OSS使用系統預設的索引表結構和Embedding向量化模型,自動建立包含OSS中繼資料、對象ETag、對象標籤、自訂中繼資料、多媒體中繼資料、向量語義的資料索引。
應用調用DoMetaQuery介面基於中繼資料屬性和向量語義進行組合查詢。
OSS返回滿足查詢條件的檔案清單。
開始進行數據檢索
進行標量檢索和向量檢索的詳細步驟請參見:
對於不同的應用情境,您可以參考以下教程樣本:
統計情境:請參見教程樣本:使用OSS資料索引進行大規模資料統計
多模態檢索情境:請參見教程樣本:使用OSS資料索引進行多模態檢索