推薦系統開發平台PAI-Rec(PAI意為Platform of AI,Rec意為Recommendation)提供了推薦系統全鏈路的深度定製能力,適用於企業開發人員自主搭建、開發、迭代和營運一套推薦系統。
概述
推薦系統構建是一項複雜的系統化工程,它涵蓋了離線處理、線上服務、即時資料流轉以及工程架構等多個維度,在功能模組上,細分為召回、排序、過濾和重排等模組。PAI-Rec的推薦模組和鏈路均依託於阿里雲飛天巨量資料架構,開發人員可結合企業技術棧、開發習慣等靈活選型,並對推薦鏈路的代碼進行自訂開發。同時,PAI-Rec提供多種資料診斷分析、推薦結果調試、引擎發行管理等各種工具,通過A/B testing服務和實驗報表平台,協助客戶大幅提升推薦系統迭代效率。
PAI-Rec可以從客戶埋點的日誌開始做資料分析,根據業務定製出特徵工程、召回、排序的演算法代碼,引擎的設定檔,實驗報表指標和統計代碼。協助客戶輕鬆的搭建推薦系統,完善推薦情境,縮短推薦業務的建設和最佳化的周期。不管客戶是從0到1建設推薦系統,還是已有推薦系統遇到效果最佳化的瓶頸,都可以基於該平台開展工作。
PAI-Rec的白盒化開發模式,為開發人員帶來更加透明、可控、靈活的開發體驗。除此之外,如果企業推薦演算法、工程團隊建設相對年輕,建議對接初期,採用阿里演算法團隊基於行業定製的演算法模型來啟動服務,一方面可輔助企業在短期內完成完整推薦系統的部署,另一方面可助力企業開發人員快速上手、自主完成模型訓練、效果評估等。如果需要阿里側工程師提供深度的調優定製、調優經驗分享等,也可通過商務洽談溝通開展深入合作。
同時,PAI-Rec還提供冷啟動、流量調控、線上學習等多種產品功能,由於方案相對比較複雜,如果您有相關業務需求,請聯絡您的商務經理或阿里雲技術團隊。
更多詳情,請前往PAI-Rec官網查看。
開發流程
產品優勢
PAI-Rec在建設推薦系統方面的優勢包括:
高度透明的白盒化設計
提供豐富的原始碼,協助使用者理解推薦演算法細節,實現根據具體業務需求靈活定製代碼。
其中,原始碼包括:資料特徵工程和樣本處理的原始碼、調用召回/排序模型的指令碼代碼、EasyRec召回和排序模型的原始碼,以及PAI-Rec引擎的業務原始碼。
便捷的推薦演算法定製流程
只需配置使用者表、物品表、行為表,即可產生召回、排序指令碼和設定檔,簡化了定製化推薦的部署過程。
全面的引擎與實驗管理系統
提供完整的引擎管理和實驗管理後台,使用者能夠輕鬆管理召回、排序組件、更新引擎參數。
精細的指標監控與報告功能
提供指標和報表管理後台,使用者可自訂指標,按天或按小時跟蹤實驗表現,確保對推薦效果的精準把控與及時反饋。
離線上特徵一致性保障機制
提供專門的工具進行離線與線上特徵的一致性比對,有效預防因資料不一致引發的實驗偏差。
智能化的資料診斷與分析
提供資料智能診斷工具,協助開發人員快速理解資料,根據結果資料選擇特徵和特徵工程的時間窗。
直觀的推薦結果觀測工具集
提供多種診斷工具,協助使用者可視化觀察推薦結果和召回資料。
強大的特徵管理輔助
配合特徵平台管理工具,能夠更好地管理特徵,提高實驗效率。
全方位的技術服務支援
提供多種技術服務,協助使用者快速上手解決方案。
依賴雲產品
PAI-Rec使用PAI-EasyRec訓練召回和排序模型,使用Go語言的PAI-Rec引擎搭建推薦系統;通過DataWorks或者PAI-Designer編輯和調度特徵工程、樣本和模型訓練的代碼;使用BE/GraphCompute/hologres儲存使用者特徵、i2i查詢、向量查詢;使用PAI-EAS提供可彈性擴縮容的打分服務。具體說明如下:
人工智慧平台PAI是面向開發人員和企業的機器學習/深度學習工程平台,提供包含資料標註、模型構建、模型訓練、模型部署、推理最佳化在內的AI開發全鏈路服務。
EasyRec演算法架構內建了業界先進的深度學習模型,支援多種Tensorflow版本(>=1.12, <=2.4, PAI-TF),覆蓋了推薦全鏈路的需求,包括召回、粗排、排序、重排、多目標、冷啟動等。開發人員可基於EasyRec演算法架構加速迭代推薦全鏈路需求。
巨量資料開發治理平台DataWorks和雲原生MaxCompute是基於雲原生的兩款巨量資料服務,可搭配使用,針對推薦系統中特徵處理、樣本產生、畫像管理、模型調度、資料更新等環節,提供了易用的開發工具和穩定的資料環境。
說明PAI-Rec目前僅支援DataWorks和MaxCompute,如果您的業務確實需要使用其他巨量資料服務選型,可能需要您修改相應的引擎代碼,請提前與架構師溝通方案。
即時數倉Hologres是阿里巴巴自主研發的一站式即時數倉引擎(Real-Time Data Warehouse),支援海量資料即時寫入、即時更新、即時加工、即時分析,支援標準SQL(相容PostgreSQL協議和文法,支援大部分PostgreSQL函數),支援PB級資料多維分析(OLAP)與即席分析(Ad Hoc),支援高並發低延遲的線上資料服務(Serving),支援多種負載的細粒度隔離與企業級安全能力,與MaxCompute、Flink、DataWorks深度融合,提供企業級離線上一體化全棧數倉解決方案。
可以使用Hologres儲存使用者即時行為序列和使用者特徵、推薦召回資料,使用Hologres提供的向量召回功能等。
圖計算服務Graph Compute是阿里雲自主研發的高效能分布式圖計算產品,為開發人員提供萬億級資料規模的一站式圖技術服務。Graph Compute支援複雜圖關係資料的儲存、查詢和計算,高效對接圖演算法與模型,在搜尋推薦廣告、即時風控、知識圖譜、社交網路等情境有著廣泛的應用。