推荐解决方案综述 - 人工智能平台 PAI

推荐系统和搜索引擎是现代App解决信息过载的标配系统，如果从零开发推荐系统，不仅需要耗费大量金钱和时间，而且很难满足快速上线推荐系统及不断迭代各种算法的业务要求。本文为您介绍如何使用阿里云产品创建推荐系统的数据和模型，从而快速搭建自己的推荐系统。

架构

完整的推荐流程包括召回和排序。召回是指从海量的待推荐候选集中，选取待推荐列表。排序是指对待推荐列表的每个Item与User的关联程度进行排序。推荐系统的架构如下。推荐系统架构

基于PAI产品实现推荐系统的架构如下。 PAI实现的推荐系统架构其中：

完整的推荐流程如下。推荐方案的架构用户进入PAI平台，首先调用EAS的召回服务获取召回列表，然后在Tablestore中，使用User ID和Item ID读取特征，并将拼接好的样本传入EAS排序服务，最终获取排序结果。

如果需要推荐很多Item，则可以考虑使用文章的标题和正文训练一个Doc2vec模型，并对每个Item生成一个向量，详情请参见文本分析。

您可以将向量放至ES引擎中，并添加向量检索插件，从而使每个向量可以召回相似向量。建议先对Item进行分类，再在同一个大类中查找相似向量。如果没有对Item进行分类，则可以标注部分Item，并将其作为分类模型。

拥有冷启动及用户点击数据后，您可以按照如下方法构建推荐场景：

使用用户点击序列计算物品和物品之间的关系。您可以通过自然语言处理中的Word2vec算法，将每个用户点击的多个Item作为一个句子，并对该Item序列进行清洗（例如，访问的Item属于同一个大类、访问的Item在同一个Session中或两次访问Item的时间间隔不超过30分钟），详情请参见文本分析。
获得足够的User和Item数据后，您可以通过协同过滤etrec算法或矩阵分解算法计算得到Item-Item数据，详情请参见组件配置。
说明
etrec算法中可以设置权重weight。例如，对点击、收藏及购买设置不同的权重。
获得用户点击Item的日志和曝光日志后，您可以使用GBDT模型（避免特征工程）或树模型（例如PS-SMART）整理用户特征和Item特征，详情请参见组件配置或GBDT回归。
使用如下任何一种算法挖掘特征（User和Item本身特征、User-Item交叉特征及Context特征）：
- 挖掘特征工程：特征工程。
- 自动挖掘Autocross特征：Auto ML自动特征工程使用说明。
- 使用FM算法自动挖掘二阶交叉特征：使用FM-Embedding实现推荐召回。
模型训练完成后，使用EAS将其部署为RESTful API，详情请参见服务部署：控制台。
使用TextRank算法提取关键词，从而挖掘Item中的标签信息，详情请参见文本分析。