推荐系统全栈:倒排/向量召回+DNN排序+推理引擎+后端服务

又是一年秋招季(虽然已经进行一半了),当年我也是一名每天刷校招信息的牛友,每天面对卷上天的算法赛道(现在看来当时还没那么卷),好在最终是得偿所愿。感谢牛客。

工作一段时间后再回看,校招的时候一般看的都是手撕 + 八股 + 论文 + 项目,但是最近几年校招面试也是越来越卷,面试官不仅看重选手的这些硬实力,还很看重过往经验和团队工作的契合度。然而,对于想要找搜广推算法的牛友来说,除非有比较长期的实习经历,否则很难对推荐系统的全貌有一个完全的把握,因为实在是一个太复杂的系统,涉及到数个算法、后端、前端、测试、运维、数仓团队的协作,整个流程下来可能要有几十种组件,几十个服务,几十个数据表。

为了把这些分散在各个地方的知识串起来,作为工作一段时间后的知识梳理,作为给校招同学们的参考,用Python实现了一个推荐系统的核心流程,包含倒排召回、向量召回、DeepFM训练,特征上线,模型部署、后端服务。使用到了PyTorch + Redis + Elasticsearch + Feast + Triton + Flask,一台笔记本即可运行,全部环境封在了Conda和Docker里,不会污染本地环境,可以放心食用。下面是GitHub仓库地址,里面包含所有的代码和对应的说明。

https://github.com/akiragy/recsys_pipeline

下面是一段简介:

  • Conda环境安装pandas和PyTorch模拟工业界的HDFS -> Spark -> GPU集群的离线模型训练。
  • Conda环境安装Flask模拟工业界的Spring推荐后端。
  • Docker环境安装Redis + Elasticsearch + Feast Feature Store + Triton Inference Server四个组件,用本机localhost调用Docker来模拟工业界的推荐后端RPC调用各个组件。
  • Redis用于存储召回所需的user标签和向量。
  • Elasticsearch用于构建召回所需的item标签和向量索引。
  • Feast用于存储排序所需的user和item特征。
  • Triton用作排序所需的实时打分引擎。

整个推荐系统的架构图如下,下面将分离线、离线到在线、在线三个阶段来介绍召回和排序模块的开发部署流程。

#我的求职思考##你觉得今年秋招难吗#
全部评论

相关推荐

今天投了小鹏,收到了AI面,大概会问哪些啊?
期末一定及格:总共4个部分,心理测评、行测、然后就是问岗位、对岗位的理解、过往遇到了哪些难点怎么解决,很简单,没有什么特别专业的问题,都是一些综合素质相关的
点赞 评论 收藏
分享
05-11 11:48
河南大学 Java
程序员牛肉:我是26届的双非。目前有两段实习经历,大三上去的美团,现在来字节了,做的是国际电商的营销业务。希望我的经历对你有用。 1.好好做你的CSDN,最好是直接转微信公众号。因为这本质上是一个很好的展示自己技术热情的证据。我当时也是烂大街项目(网盘+鱼皮的一个项目)+零实习去面试美团,但是当时我的CSDN阅读量超百万,微信公众号阅读量40万。面试的时候面试官就告诉我说觉得我对技术挺有激情的。可以看看我主页的美团面试面经。 因此花点时间好好做这个知识分享,最好是单拉出来搞一个板块。各大公司都极其看中知识落地的能力。 可以看看我的简历对于博客的描述。这个帖子里面有:https://www.nowcoder.com/discuss/745348200596324352?sourceSSR=users 2.实习经历有一些东西删除了,目前看来你的产出其实很少。有些内容其实很扯淡,最好不要保留。有一些点你可能觉得很牛逼,但是面试官眼里是减分的。 你还能负责数据库表的设计?这个公司得垃圾成啥样子,才能让一个实习生介入数据库表的设计,不要写这种东西。 一个公司的财务审批系统应该是很稳定的吧?为什么你去了才有RBAC权限设计?那这个公司之前是怎么处理权限分离的?这些东西看着都有点扯淡了。 还有就是使用Redis实现轻量级的消息队列?那为什么这一块不使用专业的MQ呢?为什么要使用redis,这些一定要清楚, 就目前看来,其实你的这个实习技术还不错。不要太焦虑。就是有一些内容有点虚了。可以考虑从PR中再投一点产出
点赞 评论 收藏
分享
评论
11
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务