牛客吹哨人

2020-05-06 12:18 已编辑中金所技术公司_业务

关注

智能推荐算法演变及学习笔记

【说在前面】本人写作新手一枚，象牙塔的老白，职业场的小白。以下内容仅为个人见解，欢迎批评指正，不喜勿喷！[握手][握手]

原文地址：智能推荐算法演变及学习笔记

一、基于内容的智能推荐：最古老的智能推荐方案！

1. 定义

根据用户历史喜欢的item，为用户推荐与其内容相似的item。

2. 主要步骤

（1）从用户每个历史item的内容中抽取出一些特征

结构化数据：直接用即可
非结构化数据：转化为结构化数据后再使用（例如：针对文本数据的向量空间模型、TF-IDF等）

（2）利用用户历史喜欢或不喜欢的item特征集合，学习出用户的兴趣特征表示

可以直接选择item的相似度衡量方法：欧几里得距离（适用于结构化数据）、余弦相似性（适用于非结构化数据转化后的向量表示）等
可以采用机器学习算法进行有监督训练：线性回归、最近邻、朴素贝叶斯、决策树、神经网络等

（3）比较用户的兴趣特征与候选item的特征，选择相关性前Top-n的item进行推荐

如果2中直接采用相似度衡量方法：只要把与用户兴趣特征最相关的n个item作为推荐返回给用户即可
如果2中采用机器学习算法：只要把模型预测的用户最可能感兴趣的n个item作为推荐返回给用户即可

3. 优缺点

（1）优点

不需要其它用户的数据，没有物品冷启动问题和数据稀疏问题
能推荐新的或不是很流行的项目，没有新项目问题
能为具有特殊兴趣爱好的用户进行推荐
可以通过推荐项目的内容特征，解释其推荐理由

（2）缺点

存在用户冷启动问题
对item内容的特征抽取并不容易实现
将各用户独立，只能推荐用户历史感兴趣的item，用户的潜在喜好无法挖掘

二、基于协同过滤的智能推荐：最流行的智能推荐方案！

1. 基于内存的协同过滤方法

（1）基于用户的推荐：主要考虑用户之间的相似度，将相似用户评分Top-n的物品推荐给用户

（2）基于物品的推荐：主要考虑物品之间的相似度，将与用户喜好物品相似度Top-n的物品推荐给用户

（3）优缺点

和基于内容的推荐方法相比，该协同过滤具有如下的优点：

能够过滤难以进行机器自动内容分析的信息，如艺术品、音乐等
能够共享其他用户的经验，避免了内容分析的不完全和不精确
能够有效使用其他相似用户的反馈信息，加快个性化学习的速度
具有推荐新信息的能力，可以发现用户潜在的但自己尚未发现的兴趣偏好

但该协同过滤仍有许多的问题需要解决：

存在冷启动问题和数据稀疏问题
商品、用户越多，协同过滤越复杂，可扩展问题
不能为具有特殊兴趣爱好的用户进行推荐（找不到相似用户）

2. 基于模型的协同过滤方法：最主流的智能推荐方案！

（1）基于关联规则的推荐：主要方法是从 Apriori 和 FP-Growth 两个算法发展演变而来（计算复杂度过大）

（2）基于矩阵分解的推荐：主要方法包括SVD分解及其变种、分解机、张量分解等（都未解决数据稀疏问题和冷启动问题）

（3）基于隐语义模型的推荐：主要方法包括隐性语义分析LSA和隐含狄利克雷分布LDA等。（主要是基于用户的nlp语义分析进行相关推荐）

（4）基于机器学习的推荐（参考数据挖掘项目全流程介绍）

基于聚类算法的推荐：k-means、层次聚类等
基于分类算法的推荐：最近邻、朴素贝叶斯、决策树等
基于回归算法的推荐：线性回归、逻辑回归等
基于集成学习的推荐：gbdt、xgboost、lightgbm等

（5）CTR预估模型演变之路（手动划重点）

LR/GBDT/xgboost：机器学习算法的直接使用
FM/FFM：FM在LR的基础上，考虑了特征间的二次交叉；而FFM则是在FM的基础上，考虑了特征交叉的field特点

GBDT+LR/FM/FFM：GBDT模型能够学习高阶非线性特征组合、LR/FM/FFM易于处理大规模稀疏数据

MLR：等价于聚类+lr，先聚成m类，然后每个聚类单独训练一个LR，分而治之

DNN/wide & deep/deepFM/NFM/DCN等（引入深度学习）：都是在高阶特征的提取上下了不少功夫
- wide & deep：可以看作是 DNN 和特征工程的融合
- deepFM/NFM：可以看作是FM、FFM和DNN的融合
- DCN ：cross网络是FM在高阶特征组合的推广，不需要特征工程
- 后续还有引入注意力机制、强化学习等的智能推荐方法

双塔模型DSSM：两侧分别对{用户，上下文} 和 {物品} 进行建模

（6）基于图模型的推荐

SimRank系列算法和马尔科夫模型算法：基于用户-物品二分图的拓扑结构信息来衡量任意两个对象间的相似程度
基于知识图谱的推荐：
- 基于特征的推荐方法：主要是从知识图谱中抽取用户和物品的属性作为特征，放入到传统的模型中（只引入了实体特征，没有引入关系特征）
- 基于路径的推荐方法：将知识图谱视为一个异构信息网络（用户-物品），然后构造物品之间的基于meta-path的特征（meta-path是连接两个实体的一条特定的路径）
- 知识图谱特征学习：基于距离的翻译模型追求h + r = t（TransE、TransH、TransR等）、基于语义的匹配模型将h/r/t输入网络中学习（SME、NTN、MLP、NAM等）
- 结合知识图谱特征学习的推荐系统：依次训练学习（DKN）、联合训练学习（CKE/Ripple Network）、交替训练学习（MKR）

三、混合推荐

1. 从推荐结果的角度

加权型混合推荐：指将多种推荐技术的计算结果加权混合产生推荐
分支型混合推荐：指根据问题背景和实际情况采用不同的推荐方法
混杂型混合推荐：指采用多种推荐技术给出的推荐结果，即取并集

2. 从特征的角度

特征组合：指组合来自不同推荐数据源的特征被另一种推荐算法所采用
特征扩充：指一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中

3. 从算法的角度

增强型混合推荐：指前一个推荐方法的输出作为后一个推荐方法的输入
层叠型混合推荐：指第一推荐方法输出粗略的推荐列表，该推荐列表又由下一推荐方法改进

4. 从系统的角度

离线学习和在线学习：hadoop/storm/spark等大数据环境下的智能推荐
满足业务上的一些需求：加入人工规则等

四、智能推荐系统可能存在的问题

1. 冷启动问题

主要包含新用户启动问题、新物品启动问题和新系统启动问题
可以采用热门物品推荐、根据地域推荐、让用户选择兴趣标签、根据好友推荐、利用交叉领域信息等方法

2. 数据稀疏性问题

可以采用简单填值、用户/物品聚类、矩阵分解、降维、混合推荐等方法

3. 马太/长尾效应

指的是存在热门物品越来越受关注、其他物品越来越得不到关注的问题
可以采用混合推荐等方法

4. 模糊问题

指的是用户的兴趣爱好不太明显、比较散乱（例如一家人用同一个智能电视）
可以采用混合推荐等方法

5. 同义问题

指的是存在推荐相关性过大、甚至推荐重复的物品给用户（例如一个物品的不同版本）
可以采用混合推荐等方法

6. 稳定性/可塑性问题

指的是用户兴趣会慢慢改变、而推荐系统仍然保留用户的历史兴趣
可以对用户的兴趣物品进行时间衰减操作

7. 多样性/精确性问题

可以采用混合推荐等方法

五、智能推荐的企业级应用

1. 采用召回候选集+业务规则过滤+模型打分排序的智能推荐系统思路

2. 采用分支型混合推荐应对不同的业务场景

3. 评估指标

个人理解企业级的上线问题以及评估指标，应该与数据挖掘类似，这里不再赘述。

一是离线算法本身的评估指标：分类问题评估指标和回归问题评估指标等
二是业务上线的评估指标：例如点击率、转化率等

老规矩，最后直接上完整的思维导图！

如果您对数据挖掘感兴趣，欢迎浏览：数据挖掘比赛/项目全流程介绍

如果您对人工智能算法感兴趣，欢迎浏览：人工智能新手入门学习路线和学习资源合集（含AI综述/python/机器学习/深度学习/tensorflow）

如果你是计算机专业的应届毕业生，欢迎浏览：如果你是一个计算机领域的应届生，你如何准备求职面试？

如果你是计算机专业的本科生，欢迎浏览：如果你是一个计算机领域的本科生，你可以选择学习什么？

如果你是计算机专业的研究生，欢迎浏览：如果你是一个计算机领域的研究生，你可以选择学习什么？

如果你对金融科技感兴趣，欢迎浏览：如果你想了解金融科技，不妨先了解金融科技有哪些可能？

#人工智能##机器学习##笔记#

应届生求职经验分享文章被收录于专栏

如题，本专栏将持续分享应届生求职就业过程中的经验，包括但不限于求职准备、撰写简历、网申投递、笔面试经验、offer比较等，哨哥将全程陪伴，欢迎关注哨哥，一起寻找最美丽的offer！

全部评论

推荐最新楼层

04-13 14:08

西北工业大学电子信息类

为什么荣耀投递失败啊

投递荣耀终端等公司8个岗位 > 荣耀求职进展汇总

点赞评论收藏

转发

喜欢吃卤蛋的芝士在干饭

04-15 16:16

门头沟学院电子信息类

25届Java实习

双非硕，算法刷的少，在狂补中，大厂没戏，从三月开始投简历拿了三家实习offer，一家用友金融面了40分钟，感觉答的一般但还是给offer了，一家金风科技，4个人群面30分钟，第二天给offer但是要和供应商签实习协议，一家傲韦科技，做数据库内核。四月以后一个面试都没有，绝了，后悔拒了之前的

实习，投递多份简历没人回复怎么办

点赞评论收藏

转发

03-27 18:05

广州应用科技学院计算机类

或许我真的不适合干计算机这一行吧

点赞评论收藏

转发

今天学够八小时了吗

03-26 11:57

已编辑

门头沟学院计算机类

没见过这么急的 hr

因为我打字打了一分钟，被 hr 怼了，今日首绷

点赞评论收藏

转发

吃糖的夏夏

04-16 11:01

北京科技大学电子信息类

关于腾讯面试的二三事

1.关于初试和复试初试和复试都可能有多轮。你的状态中只要链接还在，就代表着你的面试官没有提交面评，如果你的链接消失了，并转变为了初试或复试，那么你基本就是有下一轮面试要走，不要过于担心在这个地方挂掉。初试复试内容（以本人为例）一面：技术面，简要介绍简历，八股多，大概率有手撕，1h左右。二面：基本上是leader面，压力面，技术面，有八股，问简历内容，问实习经历，而且会让你讲的很细，小概率手撕，但一定有很多八股以外的场景题，要求你在死背八股的基础上有自己的思想。1h30min左右。当然你不会的概率是非常大的，在这个阶段要放平心态，展现给你的leader你可以承担压力，有着自己的思考能力，并且可以...

如何判断面试是否凉了

点赞评论收藏

转发

3 10 评论

招聘动态

博乐游戏

24届春招&25届实习生招聘

联想

24届应届+25届实习

24届春招硬件高薪职位集合

阅文集团2024春季校招

百信银行

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

67740次浏览 1782人参与

# 你会选择考研还是直接就业 #

50440次浏览 578人参与

# 腾讯音乐工作体验 #

124120次浏览 2509人参与

# 辞职后的日常 #

3339次浏览 47人参与

# Offer比较，你最看重什么？ #

37250次浏览 392人参与

# 0offer是寒冬太冷还是我太菜 #

302695次浏览 3913人参与

# 都在说24和25届，谁来管21-23届呢 #

61848次浏览 807人参与

# 选了这个offer，你有没有后悔？ #

67240次浏览 589人参与

# 快手工作体验 #

30196次浏览 609人参与

# 25届非技术实习投递记录 #

27168次浏览 394人参与

# 比亚迪求职进展汇总 #

100769次浏览 886人参与

# 23届的你们都什么时候入职？ #

66204次浏览 568人参与

# 春招已经启动啦硬件uu开始投了吗？ #

74302次浏览 564人参与

# 大家都开始春招面试了吗 #

200284次浏览 3039人参与

# 如果校招重来我最想改变的是 #

62233次浏览 1305人参与

# 想辞职但是不敢的原因 #

2287次浏览 58人参与

# 硬件人的简历怎么写 #

55077次浏览 615人参与

# 小米求职进展汇总 #

24297次浏览 245人参与

# 你觉得通信/硬件有必要实习吗？ #

15759次浏览 363人参与

# 华为求职进展汇总 #

392325次浏览 4069人参与

# 转眼已经银四了，你收到offer了吗 #

80631次浏览 639人参与

# 你的论文盲审过了没？ #

26729次浏览 390人参与

牛客网
牛客企业服务