資料相關
名稱 | 解釋 |
MaxCompute資料來源 | 全量資料來源,未經處理資料按照分區儲存在MaxCompute中。 |
API資料來源 | 即時增量資料來源,通過API推送進行資料更新。 |
文檔 | 文檔是可搜尋的結構化資料單元。文檔包含一個或多個欄位,但必須有主鍵欄位,召回引擎版執行個體通過主索引值來確定唯一的文檔。 主鍵重複則文檔會被覆蓋。 |
欄位 | 欄位是文檔的組成單元,包含欄位名稱和欄位內容。 |
多重值欄位 | 一個欄位含有多個不同的值,每個值都是獨立的。 |
主鍵 | 唯一標識一篇文檔的欄位。 |
召回引擎版
名稱 | 解釋 |
查詢節點(QRS) | 線上檢索中的一個角色,用於解析查詢請求合并Searcher的結果。 |
資料節點(Searcher) | 線上檢索系統中的一個角色,載入索引資料,提供檢索服務。 |
叢集 | 一組查詢節點和資料節點的組成的一個檢索服務。 |
Processor | 離線索引構建中的一個角色,解析使用者的未經處理資料。 |
Builder | 離線索引構建中的一個角色,將未經處理資料構建成索引。 |
Merger | 離線索引構建中的一個角色,對索引進行合并整理。 |
全量 | 將MaxCompute上的資料構建成索引的過程就叫做全量,產出的索引成為全量索引,索引的版本稱為全量版本。 |
增量 | 資料即時更新時,離線索引構建流程產出索引並切換到線上。 |
即時 | API推送的資料即時生效,這一流程成為即時,在資料節點記憶體中會產出即時索引。 |
倒排索引 | 片語到文檔的對應關係組成的鏈表,query子句用的就是這種排序方式,查詢效率高。例如:term1->doc1,doc2,doc3;term2->doc1,doc2。 |
正排索引 | 文檔到欄位對應關係組成的鏈表,filter子句用的就是這種排序方式,效能略慢於倒排。例如:doc1->id,type,create_time…。 |
摘要索引 | 將需要展示的資訊儲存在一起,通過主鍵或者docid進行擷取,最終返回給搜尋結果頁進行展示。 |
分詞 | 對推送上來的文檔進行片語切分,TEXT類型為按檢索單元進行切分。如“浙江大學”,TEXT類型會切分成2個片語:“浙江”、“大學”。 |
term | 分詞後的片語稱為term。 |
FSM觸發和執行機制
變更類型 | 允許重複觸發 | 說明 |
服務發現 | 是 | 可以理解為把引擎的IP掛載到網域名稱下以供調用。針對同一個叢集的情況下,最新的變更執行前會終止所有舊的變更 |
ha3_biz_apend | 否 | 添加biz,由系統自動觸發有且僅有一個,該變更可能持續運行好幾天,直到執行個體正確添加索引表並成功構建索引後才會自動結束。 |
update_biz_depend_index_fsm | 否 | 更新biz依賴的索引,由系統自動觸發有且僅有一個,該變更可能持續運行好幾天,直到索引表成功構建索引才會自動結束。 |
新增線上部署 | 是 | 針對同一個叢集的情況下,最新的變更執行前會終止所有舊的變更 |
multi_biz_activate | 否 | 可以理解為執行個體初始化, 一個執行個體有且僅有一個,該變更可能持續運行好幾天,直到執行個體正確添加索引表並成功構建索引後才會自動結束。 |
新增索引 | 是 | 針對同一個索引的情況下,最新的變更執行前會終止所有舊的變更 |
自動觸發全量 | 是 | 發現新的資料分區後自動執行,最新的變更和歷史變更並存 |
手動觸發全量 | 是 | 最新的變更和歷史變更並存 |
推送配置 | 是 | 最新的變更執行前會終止所有舊的變更 |
線上資源 | 是 | 針對同一個zone的情況下,最新的變更執行前會終止所有舊的變更 |
索引復原 | 是 | 最新的變更和歷史變更並存 |
FSM:有限狀態機器(Finite State Machine:FSM)又稱有限狀態自動機或簡稱狀態機器,是表示有限個狀態以及在這些狀態之間的轉移和動作等行為的數學模型。
重複觸發:是否允許多次觸發該變更類型