行為資料上報給使用者帶來什麼好處?
可以瞭解終端使用者對搜尋結果的反應(瀏覽、點擊、停留、點贊、分享、收藏、購買等行為),從而為最佳化搜尋效果提供指引方向。
可以在搜尋應用的資料統計功能中,看到為該應用統計的各種搜尋報表(如PV, IPV, CTR等),為使用者的營運工作帶來協助。
通過OpenSearch為使用者提供的演算法平台,可以將這些搜尋行為反饋資料應用在搜尋排序演算法模型訓練中,不斷地提升搜尋效果。
注意事項
資料擷取功能會在執行個體應用建立完成後自動開通
資料,目前主要指終端使用者對搜尋結果的行為反饋資料
採集,目前主要指通過OpenSearchSDK上報搜尋行為資料(Server端),App端、Web暫不支援,敬請期待
資料擷取2.0相較於老的資料擷取功能,在傳參上更簡單更便於理解,SDK使用上也更便捷。新使用者如果有需求,請直接使用此文檔中的行為資料上報欄位進行傳參。(注:Java 3.4.0SDK 以及PHP 3.2.0SDK 支援資料擷取2.0功能。)
上報行為資料
說明:使用者在OpenSearch控制台開通行為採集功能之後,建議通過SDK手動上傳行為資料。下文詳細介紹了行為資料包含的欄位類型與含義。步驟:
SDK上報有8個必須欄位:imei 或 user_id(註:二者不能同時為空白)、biz_id、trace_id、rn、bhv_type、bhv_time、item_id、item_type
API上報: 除了上面的必須欄位之外,外加1個reach_time
SDK/API上報行為資料demo可點擊此處進行查看。
行為資料欄位定義
ID | 欄位名 | 欄位類型 | 欄位含義 | 欄位值 | 是否必須 |
1 | app_version | STRING | 業務側網站或移動APP的版本號碼 | 非必須 | |
2 | sdk_type | STRING | 資料上報使用的SDK類型。該欄位是OpenSearch為了區分服務端上報和移動端採集的SDK而設定的 | 非必須如果是通過OpenSearchSDK做上報,會預設設定該值為”opensearch_sdk” | |
3 | sdk_version | STRING | 資料上報使用的SDK版本號碼 | 非必須如果是通過OpenSearchSDK做上報,會預設設定該值 | |
4 | login | STRING | 終端使用者在業務側網站或移動APP上是否是登入狀態 | 取值為0或1。含義為:0(未登入), 1(登入) | 非必須 |
5 | user_id | STRING | 用於唯一標識終端使用者的一個ID。 | 非必須但imei,user_id不能同時為空白 | |
6 | imei | STRING | 終端使用者裝置ID(值可以為:imei,device_id,idfa) | 非必須但imei,user_id不能同時為空白 | |
7 | biz_id | STRING | 業務側用於區分不同業務的一個數值ID。一般是搜尋入口,例如有Web端和ios,安卓,就可以分多個biz_id,後續可以通過biz_id來切分流量統計或做實驗 | 如果使用者沒有分業務情境,就建議填一個default;如果有區分業務情境,就可以填pc, ios, android等 | 必須 |
8 | trace_id | STRING | 用於區分行為針對的doc是來自哪個搜尋服務商輸出的結果 | 如果是來自OpenSearch的結果,該欄位值設定為Alibaba,如果是來自其他服務商的結果,業務側可以自己取名字 | 必須 |
9 | trace_info | STRING | 該值來自OpenSearch在搜尋結果中返回ops_request_misc的值,原樣回傳即可 | 非必須 註:trace_id為Alibaba時必須要回傳,內部用於核對是由OpenSearch輸出的結果 | |
10 | rn | STRING | 用於標識一個搜尋pv。 該值來自OpenSearch在搜尋結果中返回的request_id的值,原樣回傳即可。 | 必須 | |
11 | item_id | STRING | doc的主索引值。 該值為OpenSearch應用中主表主索引值 | 必須 | |
12 | item_type | STRING | doc的業務類型 | 可設定的值見下文【關於item_type定義】 | 必須 |
13 | bhv_type | STRING | 行為類型,例如曝光、停留、瀏覽、收藏、下載等 | 可設定的值見下文【常用行為類型】 | 必須 |
14 | bhv_value | STRING | 行為數量,例如停留時間長度,購買件數等 | 可設定的值見下文【常用行為類型】 | 非必須 |
15 | bhv_time | STRING | 行為發生的時間戳記,單位s | 必須 | |
16 | bhv_detail | STRING | 對行為的一些詳細描述。 | 格式:key=value{,key=value} 表示可以是1個或多個key=value對 | 非必須 |
17 | ip | STRING | 行為發生的手機或終端的ip | 非必須建議設定 | |
18 | longitude | STRING | 行為發生位置的經度 | 非必須建議設定 | |
19 | latitude | STRING | 行為發生位置的緯度 | 非必須建議設定 | |
20 | session_id | STRING | 使用者的一次會話id | 非必須建議設定 | |
21 | spm | STRING | 提供給業務用來跟蹤行為所在的頁面模組的位置 | 編碼格式為a.b.c.d, 分別代表網站ID,頁面ID, 模組ID, 位置ID。 | 非必須 |
22 | report_src | STRING | 用於區分上報來源 | 取值為1,2,3,patch_data。含義:
| 非必須 |
23 | mac | STRING | 手機或終端裝置的網卡MAC地址 | 非必須 | |
24 | brand | STRING | 手機或終端的品牌 | 非必須建議設定 | |
25 | device_model | STRING | 手機或終端的機型 | 非必須 | |
26 | resolution | STRING | 手機或終端的螢幕解析度 | 非必須 | |
27 | carrier | STRING | 手機或終端的行動電信業者 | 非必須 | |
28 | access | STRING | 手機或終端串連的網路 | 非必須 | |
29 | access_subtype | STRING | 手機或終端串連的網路類型 | 非必須 | |
30 | os | STRING | 手機或終端的作業系統 | 非必須 | |
31 | os_version | STRING | 手機或終端作業系統的版本 | 非必須 | |
32 | language | STRING | 手機或終端設定的語言類型 | 非必須 | |
33 | phone_md5 | STRING | 使用者手機號的md5值 | 非必須 | |
34 | reserve1 | STRING | 預留欄位 | 非必須 | |
35 | reserve2 | STRING | 預留欄位,當report_src='patch_data'時,reserve2須填寫raw_query對應值(必填) | 非必須 | |
36 | reach_time | BIGINT | 該資料到達服務端的時間,格式:時間戳記,單位:秒。 | 必須,如果是通過OpenSearchSDK做上報,SDK會自動化佈建, 如果是通過OpenSearchAPI做上報,需要設定 |
關於item_type定義
ID | item_type | 業務含義 |
1 | goods | 物品、商品 |
2 | article | 文章、部落格、小說 |
3 | ask | 問答 |
4 | bbs | 論壇文章 |
5 | download | 下載 |
6 | image | 圖片 |
7 | media | 多媒體(包括電影、電視、音樂等) |
8 | recipe | 美食、菜譜 |
9 | news | 新聞資訊 |
10 | institution | 組織機構 |
11 | other | 其他 |
常用行為類型
ID | bhv_type | 含義 | bhv_value | bhv_detail |
1 | expose | 曝光 | 置空 | 置空 |
2 | stay | 停留 | 停留時間長度(單位秒) | 置空 |
3 | click | 點擊 | 點擊次數。預設值: 1 | 置空 |
4 | cart | 加入購物車,加入書架,加入歌單 | 置空 | 置空 |
5 | buy | 購買 | 購買件數。預設值: 1 | 例:buy_price=12,price_unit=RMB |
6 | collect | 收藏 | 置空 | 置空 |
7 | like | 點贊 | 點贊次數預設值:1 | 置空 |
8 | dislike | 點衰 | 點衰次數預設值:1 | 置空 |
9 | comment | 評論 | 評論次數預設值:1 | 置空 |
10 | share | 分享、轉寄 | 分享/轉寄次數預設值:1 | 置空 |
11 | subscribe | 關注、訂閱 | 置空 | 置空 |
12 | gift | 送禮物 | 置空 | 置空 |
13 | download | 下載 | 置空 | 置空 |
14 | read | 閱讀 | 置空 | 置空 |
15 | tip | 打賞 | 置空 | 置空 |
16 | complain | 投訴 | 置空 | 置空 |
查看資料報告
當資料擷取服務開通後,並上傳了一定量的行為資料,可在資料擷取頁中查看資料狀態和資料品質:
資料狀態
資料狀態分為“正常,可用”和“異常,不可用”,正常是指資料品質部分無任何報錯,即所有校正皆通過,如果有報錯則是“異常,不可用”;
當資料狀態為“異常,不可用”時,可能會影響人氣模型、類目預測的建立與訓練。
資料異常狀態:
資料正常狀態:
資料品質
資料品質驗證用於輸出後台校正項有錯誤時,控制台會顯示對應的錯誤資訊,但校正項沒有錯誤時不在控制台顯示:注意:上圖抽樣檢查的資料是每整點抽樣展示前一個小時使用者同步過來的行為資料。