字节跳动推荐算法面经

tiktok国际化电商直播推荐算法

1. 介绍项目背景
2. 推荐链路是怎么运作的 有哪些模块
3. 如何做排序模型的迭代
4. 用过的大数据框架
5. 优化器的原理
6. PPO的原理,损失函数
7. 写Prompt的经验
8. SFT的经验
9. 代码:TOP K大的数
10. 反问:团队做的方向

一面过,等二面。

#字节##字节跳动##字节求职进展汇总##面试##面试经验##算法#
全部评论
那个,大佬,敢问您的简历的项目写了什么啊?我最近在自学这个,打算搞一个好看的项目经历
点赞 回复 分享
发布于 03-21 20:40 北京
你好,我想请问一下就是您的推荐算法八股是在哪里准备的呀
点赞 回复 分享
发布于 03-11 10:33 北京
啥时候面的呀
点赞 回复 分享
发布于 01-20 15:26 北京
tt推荐吗这个是
点赞 回复 分享
发布于 01-18 09:34 上海

相关推荐

1️⃣自我介绍:【⌚️10分钟】点评:流水账,有些磕磕绊绊,自我介绍环节的项目介绍的很详细,非常冗余。优化:写逐字稿,背诵,提升语言表达能力。2️⃣经常问题的问题优化:【⌚️20分钟】1:transform结构了解吗?回答点评:回答的很简单,5分吧,说了transform的结构是encode-decode结构,分块,每个块里面有四个组建,MHA、FFN、LN、残差链接,介绍和理解不深刻。提升指导:梳理回答逻辑结构,讲解MHA、FFN、LN、残差链接的添加逻辑和含义,其中MHA给出代码层面理解,从2分钟的回答变成6分钟的回答。2:多头自注意力机制是啥?公式是啥?代码你会写吗?回答点评:讲了公式,但是掌握的不够细致,pytorch代码框架不熟悉,attention_mask机制没有写出来。提升指导:讲述代码的原理,如何使用代码回答问题,展示自己的理解深刻。3:rag中的多路召回是什么?embeding为啥用智源的BGE-large/Base?回答点评:使用了BM25和向量召回,但是没有讲出来两个的区别和联系提升指导:先讲原理,再讲述下语义理解能力和泛化能力的区别,计算的效率,两个互为补充等。3️⃣不会回答的问题指导:【⌚️40分钟】1:  LN不太会回答,看网上的回答很多,但是不是理解层面。2:我的向量召回是faiss做的,和这个相关的问题我如何准备?3:经常会被问到rag用的啥框架,这个问题如何回答?还需要准备框架的知识吗?4:面试官经常问我,rag的模型是啥?有做微调吗?如果不做微调怎么回答?5:大模型还需要补充那些知识?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
点赞 评论 收藏
分享
GRPO(Group Relative Policy Optimization)虽然最初是为强化学习中的reasoning任务(如需要多步决策、逻辑推理的任务)设计的,但其核心思想——通过组内策略的相对比较来优化策略——也可以应用于非reasoning任务(如简单的控制任务、分类任务甚至生成任务)。以下是具体的分析和建议:首先我们看下GRPO的关键创新点是:✅组内相对比较(Group Relative):将策略分成若干组(group),在组内比较不同策略的表现,而非绝对优化单个策略。✅相对策略梯度:通过组内策略的相对优势(relative advantage)计算梯度,降低方差并提升稳定性。这种思想本质上是一种基于比较的优化方法,与任务是否需要“reasoning”无直接关系,因此可以迁移到非reasoning任务中。🤔那么有哪些非Reasoning任务的适用场景呢?(1)简单控制任务(如机器人控制)问题:传统PPO可能因稀疏奖励或高方差导致训练不稳定。GRPO改进:将不同控制策略分组(例如不同参数化的控制器),在组内比较它们的表现,选择相对更优的策略更新。示例:机械臂抓取任务中,组内可以包含不同的抓取轨迹策略,通过相对优势选择更稳定的策略。(2)生成任务(如文本/图像生成)问题:生成模型的策略优化通常依赖对抗训练(GAN)或最大似然,容易陷入模式崩溃。GRPO改进:将生成器分成多个组(例如不同初始化或架构的子生成器),通过组内生成样本的质量相对比较优化策略。示例:在文本生成中,组内比较不同生成策略的流畅性、多样性等指标。(3)分类/回归任务问题:传统监督学习直接优化损失函数,可能对噪声敏感。GRPO改进:将模型的不同参数化版本(如不同dropout、超参数)分组,通过组内相对性能(如验证集准确率)更新模型。示例:图像分类中,组内比较不同数据增强策略的效果。✴️总结GRPO可以用于非reasoning任务,但需重新设计组的划分方式和相对比较的指标。其核心优势在于通过组内相对优化降低方差,适合奖励稀疏或需要多策略并行的场景。如果任务本身已有高效优化方法(如标准的监督学习),GRPO可能不会带来显著提升。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
5
36
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务