推荐系统全栈：倒排/向量召回+DNN排序+推理引擎+后端服务

又是一年秋招季（虽然已经进行一半了），当年我也是一名每天刷校招信息的牛友，每天面对卷上天的算法赛道（现在看来当时还没那么卷），好在最终是得偿所愿。感谢牛客。

工作一段时间后再回看，校招的时候一般看的都是手撕 + 八股 + 论文 + 项目，但是最近几年校招面试也是越来越卷，面试官不仅看重选手的这些硬实力，还很看重过往经验和团队工作的契合度。然而，对于想要找搜广推算法的牛友来说，除非有比较长期的实习经历，否则很难对推荐系统的全貌有一个完全的把握，因为实在是一个太复杂的系统，涉及到数个算法、后端、前端、测试、运维、数仓团队的协作，整个流程下来可能要有几十种组件，几十个服务，几十个数据表。

为了把这些分散在各个地方的知识串起来，作为工作一段时间后的知识梳理，作为给校招同学们的参考，用Python实现了一个推荐系统的核心流程，包含倒排召回、向量召回、DeepFM训练，特征上线，模型部署、后端服务。使用到了PyTorch + Redis + Elasticsearch + Feast + Triton + Flask，一台笔记本即可运行，全部环境封在了Conda和Docker里，不会污染本地环境，可以放心食用。下面是GitHub仓库地址，里面包含所有的代码和对应的说明。

https://github.com/akiragy/recsys_pipeline

下面是一段简介：

Conda环境安装pandas和PyTorch模拟工业界的HDFS -> Spark -> GPU集群的离线模型训练。
Conda环境安装Flask模拟工业界的Spring推荐后端。
Docker环境安装Redis + Elasticsearch + Feast Feature Store + Triton Inference Server四个组件，用本机localhost调用Docker来模拟工业界的推荐后端RPC调用各个组件。
Redis用于存储召回所需的user标签和向量。
Elasticsearch用于构建召回所需的item标签和向量索引。
Feast用于存储排序所需的user和item特征。
Triton用作排序所需的实时打分引擎。

整个推荐系统的架构图如下，下面将分离线、离线到在线、在线三个阶段来介绍召回和排序模块的开发部署流程。

#我的求职思考##你觉得今年秋招难吗#

全部评论

推荐最新楼层

06-26 15:48

上海交通大学 C++

小鹏AI面试是点击就有吗？

今天投了小鹏，收到了AI面，大概会问哪些啊？

期末一定及格：总共4个部分，心理测评、行测、然后就是问岗位、对岗位的理解、过往遇到了哪些难点怎么解决，很简单，没有什么特别专业的问题，都是一些综合素质相关的

26届校招投递进展

点赞评论收藏

不愿透露姓名的神秘牛友

06-26 21:00

研二下六月底找不到实习了

现在投递，似乎都不会被hr打开了，大家也是一样吗？焦虑中……uu们，我投了两天，接到两个面试，只面了一个手机厂，第二天就拿到offer了，下一站出发深圳！

点赞评论收藏

05-11 11:48

河南大学 Java

27，双非，一段小实习，如何冲击大厂

一个普通双非一本的我，在寒假结束时候找到了一家小公司实习，当时投四天四场面试全过感觉自己天下无敌，也时时幻想自己马上面试美团等大厂拿下大厂实习offer，但是我还是高估了自己的学历，最终大厂0面去了小厂。本以为是搞电商的厂，应该还可以，但是最后做的是tob的财务系统，找不到能偷的文档，也没法拉下来toc的代码，最近在投大厂，各位佬们🐮友们，有什么指导性的建议吗（简历的修改，投递的渠道，双非友好的大厂）， 下面是我的简历，感谢大家。   注:网关项目是我抄的。现在感觉到学历的差异在面试机会体现上特别大，211跟双非差之毫厘失之千里。

程序员牛肉：我是26届的双非。目前有两段实习经历，大三上去的美团，现在来字节了，做的是国际电商的营销业务。希望我的经历对你有用。 1.好好做你的CSDN，最好是直接转微信公众号。因为这本质上是一个很好的展示自己技术热情的证据。我当时也是烂大街项目（网盘+鱼皮的一个项目）+零实习去面试美团，但是当时我的CSDN阅读量超百万，微信公众号阅读量40万。面试的时候面试官就告诉我说觉得我对技术挺有激情的。可以看看我主页的美团面试面经。因此花点时间好好做这个知识分享，最好是单拉出来搞一个板块。各大公司都极其看中知识落地的能力。可以看看我的简历对于博客的描述。这个帖子里面有：https://www.nowcoder.com/discuss/745348200596324352?sourceSSR=users 2.实习经历有一些东西删除了，目前看来你的产出其实很少。有些内容其实很扯淡，最好不要保留。有一些点你可能觉得很牛逼，但是面试官眼里是减分的。你还能负责数据库表的设计？这个公司得垃圾成啥样子，才能让一个实习生介入数据库表的设计，不要写这种东西。一个公司的财务审批系统应该是很稳定的吧？为什么你去了才有RBAC权限设计？那这个公司之前是怎么处理权限分离的？这些东西看着都有点扯淡了。还有就是使用Redis实现轻量级的消息队列？那为什么这一块不使用专业的MQ呢？为什么要使用redis，这些一定要清楚，就目前看来，其实你的这个实习技术还不错。不要太焦虑。就是有一些内容有点虚了。可以考虑从PR中再投一点产出