全部產品
Search
文件中心

OpenSearch:資料擷取2.0

更新時間:Jul 13, 2024

行為資料上報給使用者帶來什麼好處?

  • 可以瞭解終端使用者對搜尋結果的反應(瀏覽、點擊、停留、點贊、分享、收藏、購買等行為),從而為最佳化搜尋效果提供指引方向。

  • 可以在搜尋應用的資料統計功能中,看到為該應用統計的各種搜尋報表(如PV, IPV, CTR等),為使用者的營運工作帶來協助。

  • 通過OpenSearch為使用者提供的演算法平台,可以將這些搜尋行為反饋資料應用在搜尋排序演算法模型訓練中,不斷地提升搜尋效果。

注意事項

  • 資料擷取功能會在執行個體應用建立完成後自動開通

  • 資料,目前主要指終端使用者對搜尋結果的行為反饋資料

  • 採集,目前主要指通過OpenSearchSDK上報搜尋行為資料(Server端),App端、Web暫不支援,敬請期待

  • 資料擷取2.0相較於老的資料擷取功能,在傳參上更簡單更便於理解,SDK使用上也更便捷。新使用者如果有需求,請直接使用此文檔中的行為資料上報欄位進行傳參。Java 3.4.0SDK 以及PHP 3.2.0SDK 支援資料擷取2.0功能。)

上報行為資料

說明:使用者在OpenSearch控制台開通行為採集功能之後,建議通過SDK手動上傳行為資料。下文詳細介紹了行為資料包含的欄位類型與含義。步驟

  1. SDK上報有8個必須欄位:imei 或 user_id(註:二者不能同時為空白)、biz_id、trace_id、rn、bhv_type、bhv_time、item_id、item_type

  2. API上報: 除了上面的必須欄位之外,外加1個reach_time

  3. SDK/API上報行為資料demo可點擊此處進行查看。

行為資料欄位定義

ID

欄位名

欄位類型

欄位含義

欄位值

是否必須

1

app_version

STRING

業務側網站或移動APP的版本號碼

非必須

2

sdk_type

STRING

資料上報使用的SDK類型。該欄位是OpenSearch為了區分服務端上報和移動端採集的SDK而設定的

非必須如果是通過OpenSearchSDK做上報,會預設設定該值為”opensearch_sdk”

3

sdk_version

STRING

資料上報使用的SDK版本號碼

非必須如果是通過OpenSearchSDK做上報,會預設設定該值

4

login

STRING

終端使用者在業務側網站或移動APP上是否是登入狀態

取值為0或1。含義為:0(未登入), 1(登入)

非必須

5

user_id

STRING

用於唯一標識終端使用者的一個ID。

非必須但imei,user_id不能同時為空白

6

imei

STRING

終端使用者裝置ID(值可以為:imei,device_id,idfa)

非必須但imei,user_id不能同時為空白

7

biz_id

STRING

業務側用於區分不同業務的一個數值ID。一般是搜尋入口,例如有Web端和ios,安卓,就可以分多個biz_id,後續可以通過biz_id來切分流量統計或做實驗

如果使用者沒有分業務情境,就建議填一個default;如果有區分業務情境,就可以填pc, ios, android等

必須

8

trace_id

STRING

用於區分行為針對的doc是來自哪個搜尋服務商輸出的結果

如果是來自OpenSearch的結果,該欄位值設定為Alibaba,如果是來自其他服務商的結果,業務側可以自己取名字

必須

9

trace_info

STRING

該值來自OpenSearch在搜尋結果中返回ops_request_misc的值,原樣回傳即可

非必須

註:trace_id為Alibaba時必須要回傳,內部用於核對是由OpenSearch輸出的結果

10

rn

STRING

用於標識一個搜尋pv。 該值來自OpenSearch在搜尋結果中返回的request_id的值,原樣回傳即可。

必須

11

item_id

STRING

doc的主索引值。 該值為OpenSearch應用中主表主索引值

必須

12

item_type

STRING

doc的業務類型

可設定的值見下文【關於item_type定義

必須

13

bhv_type

STRING

行為類型,例如曝光、停留、瀏覽、收藏、下載等

可設定的值見下文【常用行為類型

必須

14

bhv_value

STRING

行為數量,例如停留時間長度,購買件數等

可設定的值見下文【常用行為類型

非必須

15

bhv_time

STRING

行為發生的時間戳記,單位s

必須

16

bhv_detail

STRING

對行為的一些詳細描述。

格式:key=value{,key=value} 表示可以是1個或多個key=value對

非必須

17

ip

STRING

行為發生的手機或終端的ip

非必須建議設定

18

longitude

STRING

行為發生位置的經度

非必須建議設定

19

latitude

STRING

行為發生位置的緯度

非必須建議設定

20

session_id

STRING

使用者的一次會話id

非必須建議設定

21

spm

STRING

提供給業務用來跟蹤行為所在的頁面模組的位置

編碼格式為a.b.c.d, 分別代表網站ID,頁面ID, 模組ID, 位置ID。

非必須

22

report_src

STRING

用於區分上報來源

取值為1,2,3,patch_data。含義:

  • 1(通過OpenSearchSDK上報),

  • 2(通過移動端SDK採集),

  • 3(通過OpenSearchAPI上報)

  • patch_data(使用者有歷史資料或其他渠道的資料需要同步時上報)

非必須

23

mac

STRING

手機或終端裝置的網卡MAC地址

非必須

24

brand

STRING

手機或終端的品牌

非必須建議設定

25

device_model

STRING

手機或終端的機型

非必須

26

resolution

STRING

手機或終端的螢幕解析度

非必須

27

carrier

STRING

手機或終端的行動電信業者

非必須

28

access

STRING

手機或終端串連的網路

非必須

29

access_subtype

STRING

手機或終端串連的網路類型

非必須

30

os

STRING

手機或終端的作業系統

非必須

31

os_version

STRING

手機或終端作業系統的版本

非必須

32

language

STRING

手機或終端設定的語言類型

非必須

33

phone_md5

STRING

使用者手機號的md5值

非必須

34

reserve1

STRING

預留欄位

非必須

35

reserve2

STRING

預留欄位,當report_src='patch_data'時,reserve2須填寫raw_query對應值(必填)

非必須

36

reach_time

BIGINT

該資料到達服務端的時間,格式:時間戳記,單位:秒。

必須,如果是通過OpenSearchSDK做上報,SDK會自動化佈建, 如果是通過OpenSearchAPI做上報,需要設定

關於item_type定義

ID

item_type

業務含義

1

goods

物品、商品

2

article

文章、部落格、小說

3

ask

問答

4

bbs

論壇文章

5

download

下載

6

image

圖片

7

media

多媒體(包括電影、電視、音樂等)

8

recipe

美食、菜譜

9

news

新聞資訊

10

institution

組織機構

11

other

其他

常用行為類型

ID

bhv_type

含義

bhv_value

bhv_detail

1

expose

曝光

置空

置空

2

stay

停留

停留時間長度(單位秒)

置空

3

click

點擊

點擊次數。預設值: 1

置空

4

cart

加入購物車,加入書架,加入歌單

置空

置空

5

buy

購買

購買件數。預設值: 1

例:buy_price=12,price_unit=RMB

  • buy_price表示購買(即:下單)時候的物品價格, 預設

  • price_unit(價格單位)是RMB

6

collect

收藏

置空

置空

7

like

點贊

點贊次數預設值:1

置空

8

dislike

點衰

點衰次數預設值:1

置空

9

comment

評論

評論次數預設值:1

置空

10

share

分享、轉寄

分享/轉寄次數預設值:1

置空

11

subscribe

關注、訂閱

置空

置空

12

gift

送禮物

置空

置空

13

download

下載

置空

置空

14

read

閱讀

置空

置空

15

tip

打賞

置空

置空

16

complain

投訴

置空

置空

查看資料報告

當資料擷取服務開通後,並上傳了一定量的行為資料,可在資料擷取頁中查看資料狀態和資料品質:

驗證報告

資料狀態

資料狀態分為“正常,可用”和“異常,不可用”,正常是指資料品質部分無任何報錯,即所有校正皆通過,如果有報錯則是“異常,不可用”;

當資料狀態為“異常,不可用”時,可能會影響人氣模型、類目預測的建立與訓練

資料異常狀態

5

資料正常狀態

6

資料品質

資料品質驗證用於輸出後台校正項有錯誤時,控制台會顯示對應的錯誤資訊,但校正項沒有錯誤時不在控制台顯示:7注意:上圖抽樣檢查的資料是每整點抽樣展示前一個小時使用者同步過來的行為資料。