什麼是類目預測
搜尋引擎效果最佳化在查詢意圖理解階段有語義理解、具名實體識別、詞權重分析、拼字錯誤修正等手段,在排序階段有文本相關度、人氣模型、類目預測等手段。通過配置查詢分析策略和調整排序公式,搜尋效果最佳化有很大的提升空間,再通過AB測試對比不同最佳化策略的表現,衡量最佳化效果。
類目預測功能簡單來說就是:使用者輸入一個query,則計算物品所屬類目與query的相關度,類目與query的相關度越高,物品就獲得了越高的排序得分,從而這個物品就會排在越前面。
舉個例子,使用者輸入“光明”,查詢到一批物品,這批物品中有一部分的類目是“牛奶”,另一部分的類目是“大米”。根據搜尋歷史行為資料,搜尋“光明”的人裡面,點擊“牛奶”類目物品的人要比點擊“大米”類目物品的人多得多。則類目預測模型就會給出這樣的預測結果:“牛奶”類目與“光明”的相關度要比“大米”類目與“光明”的相關度高,所以在計算每個物品的排序分時,“牛奶”類目物品的得分比“大米”類目物品得分高,因此“牛奶”類目物品會排在更前面,從而提高了搜尋的業務價值。
類目預測基本原理
類目預測的目標是預測搜尋的query與類目的相關度,它需要用到歷史query資料、點擊行為資料、類目下的物品資訊資料。具體來說是把之前搜過的query收集起來,結合搜尋後的點擊行為資料,與類目下的物品資訊聯絡起來,刻畫query與類目之間的資料規律。
訓練模型需要有資料來源,建立類目預測模型時先要與某個應用關聯起來,關聯應用之後,需要確定訓練模型所需的三類資料:
1.歷史上在該應用搜尋過的所有query,需要在搜尋請求中添加raw_query參數。
2.類目資料和物品資料,這部分資料由使用者在準備模型訓練時從應用中指定欄位,至少需要指定應用中的類目ID欄位、物品標題欄位。
3. 應用的點擊行為資料,行為上報的資料越全面、品質越高,意味著模型的特徵越豐富,效果越好。
OpenSearch類目預測功能支援帶行為資料的模型訓練和不帶行為資料的模型訓練。
帶行為資料的模型訓練,適用於已經上傳行為資料,在開始訓練前會自動做允入準則檢查,確保資料量、資料品質、資料完整度都能達到要求,模型訓練有如下步驟:
1.使用歷史query和類目資訊,抽樣產生樣本資料,使用行為資料進行樣本資料打標籤。
2.對行為資料進行指標統計、特徵計算等操作,產生點擊行為類特徵。
3.結合query和類目下的物品標題,對query和標題分詞後,計算query文本與物品標題文本的語義類特徵。
4.如果上傳了成交類行為資料,會對成交行為資料進行指標統計、特徵計算,產生成交類特徵,使得成交表現較好的物品排在更前面。
5.把以上抽樣產生的樣本資料和這些樣本資料的行為特徵、語義特徵、成交特徵和樣本的標籤,綜合起來作為訓練資料,輸入到演算法中進行迭代訓練。
6.訓練完成後就得到了描述樣本中query和類目相關度關係的模型,利用這個模型就可以預測query和類目的相關度。
不帶行為資料的模型訓練,適用於沒有上傳行為資料,或行為資料品質較差的情境,只需要指定應用中的類目ID欄位和物品標題欄位,就可以開始訓練模型。由於沒有行為資料,樣本打標籤沒有依據,那麼會使用另一類演算法來訓練模型,僅通過query和類目下物品標題的文本資料,進行分詞後,計算query文本與物品標題文本的語義相關度,得到query與類目的相關度。
使用行為資料的模型效果要優於不使用行為資料的模型,訓練模型的特徵越豐富,模型對於query和類目的資料規律的刻畫越全面,做出的預測越準確。
不管是帶行為資料的模型還是不帶行為資料的模型,訓練的過程都經過了大量的實驗,使用不同情境的資料,做了精心的參數調優,確保效果能符合預期。
如何使用類目預測
必要條件
進行模型訓練需要資料來源,訓練模型之前必須先綁定某個應用。應用資料、應用的query資料、應用的行為資料,都是類目預測模型所需要的資料。
如果沒有上傳點擊行為資料,或不想使用點擊行為資料進行訓練,或點擊行為資料尚未滿足訓練條件,那麼可以先不使用點擊行為資料來訓練模型,此時類目預測模型需要從應用中選擇三個欄位的資料,分別是:類目ID、物品標題、類目名稱。其中類目ID和物品標題必選,類目名稱可選。在模型訓練完成後,會輸出部分模型的預測結果供效果評估,類目名稱將被用於效果評估頁面以評估query與類目的相關度是否符合預期,所以建議訓練的時候提供類目名稱欄位。
如果已上傳了點擊行為資料,那麼除了選擇上述的欄位內容,在進行模型訓練時,還可以選擇關聯線為資料的選項,只要行為資料滿足訓練條件,就會使用這部分資料訓練模型。
操作步驟
在應用下建立類目預測模型。
應用類目預測模型:首先需要在查詢分析中應用該模型,然後再在基礎排序、業務排序中生效模型。
建立一個查詢分析,配置上類目預測並選擇1中建立的模型
查詢中生效類目預測模型:SDK調用查詢介面,輸入raw_query參數。
具體操作流程可參考類目預測功能使用。