全部產品
Search
文件中心

:什麼是推薦全鏈路深度定製開發平台PAI-Rec

更新時間:Jul 13, 2024

推薦全鏈路深度定製開發平台PAI-Rec(PAI是Platform of AI的縮寫,Rec即Recommendation的簡稱),是適用於企業開發人員自主搭建、開發、迭代、營運的一整套推薦系統平台級服務。

官網入口頁面:連結價格說明)。

推薦系統是一個比較複雜的系統化工程,推薦系統分為離線、線上、即時資料鏈路和工程架構。推薦系統又分為召回、排序、過濾、重排等模組。PAI-Rec的推薦模組和鏈路均依託於阿里雲飛天巨量資料架構,開發人員可結合企業技術棧、開發習慣等靈活選型,並對推薦鏈路的代碼可自訂開發,我們提供多種資料診斷分析、推薦結果調試、引擎發行管理等各種工具。通過a/b testing服務和實驗報表平台,協助客戶大幅提升推薦系統迭代效率。

為什麼我們說PAI-Rec是全鏈路定製開發平台呢?因為我們可以從客戶埋點的日誌開始做資料分析,然後可以根據業務定製出特徵工程、召回、排序的演算法代碼,引擎的設定檔,實驗報表指標和統計代碼。協助客戶輕鬆的搭建推薦系統,完善推薦情境,縮短推薦業務的建設和最佳化的周期。不管客戶是從0到1建設推薦系統,還是已有推薦系統遇到效果最佳化的瓶頸,都可以基於該平台開展工作。

image.png

使用PAI-Rec建設推薦系統的特點是:

  • 白盒化:提供大量原始碼,讓使用者理解推薦演算法細節,可自訂代碼靈活滿足業務需求

  • 推薦演算法定製:只需配置使用者表、物品表、行為表,即可產生召回、排序指令碼和設定檔

  • 提供完整的引擎管理和實驗管理後台,讓使用者能夠輕鬆管理召回、排序組件、更新引擎參數

  • 提供指標和報表管理後台,使用者可自訂指標、按天和按小時瞭解實驗效果

  • 提供離線上特徵一致性對比工具,避免因為一致性問題導致實驗效果不符合預期

  • 提供資料智能診斷,協助開發人員快速理解資料,根據結果資料選擇特徵和特徵工程的時間窗

  • 提供各種診斷工具,協助使用者可視化觀察推薦結果和召回資料

  • 配合特徵平台管理工具,能夠更好管理特徵,提高實驗效率

  • 提供各種技術服務,協助使用者用好解決方案,解答使用中的問題

原始碼包括:

  • 資料特徵工程和樣本處理的原始碼

  • 調用召回、排序模型的指令碼代碼

  • EasyRec召回和排序模型的原始碼

  • PAI-Rec引擎的業務原始碼

我們針對客戶白盒化開發模式,將為開發人員帶來更加透明、可控、靈活的開發體驗。除此之外,如果企業推薦演算法、工程團隊建設相對年輕,我們建議對接初期,採用阿里演算法團隊基於行業定製的演算法模型來啟動服務,一方面可輔助企業在短期內完成完整推薦系統的部署,另一方面可助力企業開發人員快速上手、自主完成模型訓練、效果評估等。如果需要阿里側工程師提供深度的調優定製、調優經驗分享等,也可通過商務洽談溝通開展深入合作。

我們還提供冷啟動、流量調控、線上學習等多種產品功能,由於方案相對比較複雜,有需要請與我們的銷售或者技術團隊聯絡做進一步的交流。

我們使用PAI-EasyRec來訓練召回和排序模型,go語言的PAI-Rec引擎來搭建推薦系統;DataWorks或者PAI-Designer來編輯和調度特徵工程、樣本和模型訓練的代碼;用BE/GraphCompute/hologres來儲存使用者特徵、i2i查詢、向量查詢;用PAI-EAS來提供可彈性擴縮容的打分服務,。以下是這些產品的具體介紹:

Machine Learning Platform for AIMachine Learning Platform for AI(Platform of Artificial Intelligence)是面向開發人員和企業的機器學習/深度學習工程平台,提供包含資料標註、模型構建、模型訓練、模型部署、推理最佳化在內的AI開發全鏈路服務。

EasyRec演算法架構EasyRec內建了業界先進的深度學習模型,支援多種Tensorflow版本(>=1.12, <=2.4, PAI-TF),覆蓋了推薦全鏈路的需求,包括召回、粗排、排序、重排、多目標、冷啟動等。開發人員可基於EasyRec演算法架構加速迭代推薦全鏈路需求。

DataWorksMaxCompute是基於雲原生的兩款巨量資料服務,可搭配使用,針對推薦系統中特徵處理、樣本產生、畫像管理、模型調度、資料更新等環節,提供了易用的開發工具和穩定的資料環境,如您有除DataWorks、MaxCompute之外的巨量資料服務選型,PAI-REC標準服務暫未支援,建議使用DataWorks、MaxCompute。

如確需使用其他巨量資料服務選型,可能需要您修改相應的引擎代碼,請提前與架構師溝通方案。

Hologres(什麼是即時數倉Hologres)是阿里巴巴自主研發的一站式即時數倉引擎(Real-Time Data Warehouse),支援海量資料即時寫入、即時更新、即時加工、即時分析,支援標準SQL(相容PostgreSQL協議和文法,支援大部分PostgreSQL函數),支援PB級資料多維分析(OLAP)與即席分析(Ad Hoc),支援高並發低延遲的線上資料服務(Serving),支援多種負載的細粒度隔離與企業級安全能力,與MaxCompute、Flink、DataWorks深度融合,提供企業級離線上一體化全棧數倉解決方案。我們可以使用hologres儲存使用者即時行為序列和使用者特徵、推薦召回資料,使用hologres提供的向量召回功能等。

圖計算服務(什麼是圖計算服務)是阿里雲自主研發的高效能分布式圖計算產品,為開發人員提供萬億級資料規模的一站式圖技術服務。Graph Compute支援複雜圖關係資料的儲存、查詢和計算,高效對接圖演算法與模型,在搜尋推薦廣告、即時風控、知識圖譜、社交網路等情境有著廣泛的應用。