全部產品
Search
文件中心

Object Storage Service:使用向量檢索通過語義內容及多媒體特性快速尋找檔案

更新時間:Nov 15, 2024

通過OSS向量檢索,您可以基於語義內容、OSS中繼資料、多媒體中繼資料、對象ETag及標籤和自訂中繼資料等條件,快速定位海量Object中的目標檔案,最佳化檢索效率。

使用情境

個人及企業辦公情境

向量檢索可以通過特定語義內容直接對辦公檔案進行搜尋,例如直接搜尋“ERP 系統使用方式”、“IT 維修流程”、“2024 年經營情況分析”等關鍵詞,以實現檔案搜尋方式的便捷化,從而提升辦公效率。

多媒體社交情境

在多媒體社交情境中,您可以利用檢索能力,為您的使用者提供特定內容和多媒體資料檢索功能。例如,在某款社交應用程式中,使用者上傳了大量圖片資料。通過語義檢索,使用者可以直接根據內容進行圖片搜尋,比如直接搜尋內容為“郊外春遊”、“春節團聚”、“我見過的大海”等照片,從而為應用程式增加實用性和趣味性。

網盤情境

在網盤情境中,目前大多數提供基於標量檢索的檔案搜尋功能,例如按檔案名稱、建立時間或檔案尾碼進行搜尋。網盤通常應用於個人或企業情境,使用者可以利用向量檢索功能,對網盤中的特定內容進行搜尋,比如相關文檔或相簿中的相關圖片。

視頻監控情境

針對視頻監控儲存區的資料,企業可以利用向量檢索能力對監控資料中的部分檔案進行搜尋。比如輸入“雪天戶外監控”、“晴天中的果園”等關鍵詞,即可對相應檔案進行檢索。

注意事項

  • 地區限制

    華南3(廣州)地區的Bucket支援使用向量檢索功能。

  • Bucket限制

    向量檢索支援檔案數量最多100億的Bucket。對於檔案數量不超過1億的Bucket,您可以直接啟用此功能;而當檔案數量超過1億時,請聯絡支援人員申請開通。

  • 費用說明

    向量檢索目前是公測階段。使用向量檢索功能會產生Object的中繼資料管理費用以及檢索次數費用,但公測期間暫不收費。關於向量檢索計費項目的更多資訊,請參見資料索引費用

    除向量檢索計費項目外,使用向量檢索還會產生API請求費用,按照API調用次數收費。涉及的API請求如下:

    行為

    API

    次數

    為Bucket中的檔案構建索引

    HeadObjectGetObject

    每個檔案調用1次

    Bucket中檔案存在Tag

    GetObjectTag

    每個攜帶Tag的檔案調用1次

    Bucket中檔案攜帶自訂Meta

    GetObjectMeta

    每個攜帶自訂Meta的檔案調用1次

    Bucket中存在軟連結檔案

    GetSymlink

    每個攜帶軟連結的檔案調用1次

    掃描Bucket中的檔案

    ListObjects

    每掃描1000個檔案調用1次

    關於OSS API的請求費用,請參見請求費用

  • 建立索引所需時間

    開啟向量檢索功能時,建立索引所需時間與Bucket記憶體量的檔案數量成正比。檔案數量越多,建立索引的時間越長。 一般來說,1000萬個檔案初次建立索引的時間約為1小時,10億個檔案初次建立索引的時間約為1天,100億個檔案初次建立索引的時間約為2~3天,該時間僅供參考。

  • 分區上傳

    對於通過分區上傳產生的Object,查詢結果中只顯示已通過CompleteMultipartUpload操作將片段(Part)合成的完整Object,不顯示已初始化但未完成(Complete)或者未中止(Abort)的片段。

操作步驟

使用OSS控制台

以查詢內容為“發光的建築”、格式為JPG、圖片寬高在800*1200內的檔案為例進行示範,期望檢索結果為下圖“江邊的夜景.jpg”。

江邊的夜景

  1. 登入OSS管理主控台

  2. 單擊Bucket 列表,然後單擊目標Bucket名稱。

  3. 在左側導覽列, 選擇檔案管理 > 資料索引

  4. 資料索引頁面,單擊立即開啟

  5. 選擇向量檢索,單擊確認開啟

    說明

    構建中繼資料索引需要等待一定的時間,具體等待時間長度取決於Bucket中Object的數量。若開啟時間過久可通過重新整理來查看開啟狀態。

  6. 設定檢索條件,其他參數保留預設設定。

    • 語義內容地區填寫對該圖片的描述,例如:發光的建築。image

    • 多媒體類型選擇圖片

      • 圖片格式選擇 JPG/JPEG。

      • 圖片寬度設定小於800px。

      • 圖片高度設定小於1200px。

      image

  1. 單擊立即查詢。查詢結果符合預期,按照特徵描述成功查詢到該檔案。

    image

如需瞭解完整的檢索條件和輸出設定,請參見檢索條件和輸出設定

使用REST API

如果您的程式自訂要求較高,您可以直接發起REST API請求。直接發起REST API請求需要手動編寫代碼計算簽名。更多資訊,請參見DoMetaQuery

檢索條件和輸出設定

檢索條件設定

以下是完整的檢索條件,您可以根據需要設定單個或多個檢索條件。

OSS中繼資料檢索條件

檢索條件

說明

儲存類型

您可以按需選擇希望在查詢結果中顯示的Object儲存類型。

  • 已選擇語義內容檢索條件:只支援檢索標準儲存、低頻儲存。

  • 未選擇語義內容檢索條件:預設支援檢索標準、低頻訪問、歸檔、冷歸檔和深度冷歸檔多種儲存類型。

讀寫權限

預設選中OSS支援的四種讀寫權限ACL,即繼承Bucket、私人、公用讀取以及公用讀寫。您可以按需選擇希望在查詢結果中顯示的Object讀寫權限。

檔案名稱

支援模糊比對等於。如果您希望在查詢結果中顯示某個檔案名稱,例如exampleobject.txt。您可以通過以下兩種方式匹配目標檔案:

  • 選擇等於,然後輸入完整的檔案名稱exampleobject.txt

  • 選擇模糊比對,然後輸入檔案首碼或者尾碼,例如example或者.txt

    重要

    模糊比對可命中Object名稱的任一字元,例如輸入test,則查詢結果中將顯示localfolder/test/.example.jpglocalfolder/test.jpg等。

上傳類型

預設選中OSS支援的四種Object類型,您可以按需選擇希望在查詢結果中顯示的Object類型。Object類型說明如下:

  • Normal:通過簡單上傳方式產生的Object。

  • Multipart:通過分區上傳方式產生的Object。

  • Appendable:通過追加上傳方式產生的Object。

  • Symlink:為快速存取Object建立的軟連結。

最後修改時間

指定Object被最後修改的起始日期結束日期,時間精確到秒。

檔案大小

支援等於大於大於等於小於小於等於五種篩選條件,檔案大小單位為KB。

對象版本

僅支援查詢目前的版本Object。

對象Etag及標籤檢索條件

如需根據對象Etag及標籤進行過濾尋找,可輸入您希望在查詢結果中顯示的Object對應的ETag或標籤資訊。

  • ETag僅支援精確匹配。ETag必須帶引號,樣本值為"5B3C1A2E0563E1B002CC607C6689"。可輸入多個ETag,每行一個。

  • 以索引值對(Key-Value)的形式指定對象標籤。對象標籤的Key和Value均區分大小寫。關於標籤規則的更多資訊,請參見對象標籤

多媒體中繼資料檢索條件

您可以通過圖片文檔音頻視頻的特定屬性來過濾得到您期望的結果。

檢索條件

說明

圖片

  • 支援篩選多種圖片格式:JPG/JPEG、PNG、APNG、BMP、GIF、WEBP、TIFF、HEIC、HEIC-SEQUENCE、AVIF

  • 圖片寬高:允許設定寬高範圍,單位px。

文檔

  • 支援篩選多種文檔格式:DOC、DOCX、PPTX、PPT、XLS、XLSX、PDF、RTF、TXT、LOG、XML、HTML

視頻

  • 支援篩選多種視頻格式:AVI、 MPEG、 MPG、 RM、 MOV、WMV、 3GP、 MP4、 FLV、 MKV、 TS

  • 視頻解析度:允許設定視頻解析度範圍單位px。

  • 視頻時間長度:允許設定時間長度範圍,單位s。

  • 視頻碼率:允許設定碼率範圍,單位kbps。

音頻

  • 支援篩選多種音頻格式:MP3、 WMA、 OGG、 RA、 MIDI、 AIF/AIFF、 M4A、MKA、 MP2

  • 音頻時間長度:允許設定時間長度範圍,單位s。

語義內容檢索條件

您可以通過輸入內容語義,快速檢索擷取其相關的圖片、文檔、視頻或音頻資源。

  • 自訂搜尋相關內容的檔案,長度限制:40字元。如搜尋“雪中故宮照片”、“無線印表機的使用方式”等。

  • 語義內容檢索使用限制。

    • 不支援設定對象排列資料彙總輸出方式

    • 必須勾選一組並且只能勾選一組多媒體中繼資料檢索條件。

    • 不支援尋找使用KMS內建密鑰BYOK加密的Object。

自訂中繼資料檢索條件

您可以通過輸入中繼資料的索引值對,利用自訂中繼資料精確檢索結果。

  • 以索引值對(Key-Value)的形式指定對象中繼資料。關於自訂中繼資料的更多資訊,請參見管理檔案中繼資料

  • 支援添加多選(Key,Value 都必填),最多自訂20個。

結果輸出設定

您可對輸出結果進行排序和簡單統計。

  • 對象排序方式:支援根據最後修改時間、檔案名稱和檔案大小進行升序、降序及預設排序。您可以按需選擇並排序檢索結果,便於快速找到所需檔案。

  • 資料彙總:支援多種輸出類型,您可以對檢索結果進行去重統計、分組計數、最大值、最小值、平均值和求和等計算,便於高效分析和管理資料。

常見問題

為什麼檔案上傳後,無法立即檢索到?

檔案上傳後,對應檔案的索引產生需要一定時間,所以查詢結果會有一定程度的延遲,可能無法立即得到查詢結果,等待片刻後重試即可。