2025-11-11 12:47 哔哩哔哩_资深算法

发布于江苏

关注

B站-广告大模型算法工程师（日常实习）

岗位职能
1.跟进大语言模型、多模态大模型等前沿研究，探索视频理解、视频问答、跨模态对齐、广告语义表征等关键技术。
2.基于大语言模型、多模态大模型，构建广告物料与用户内容的全方位理解体系，提升广告在语义层面的精准匹配与检索效率。
3.将大模型生成与理解能力融入广告分发系统，包括召回、排序等模块，构建端到端的“理解-分发”智能闭环。

岗位要求
1.计算机科学、人工智能、数学、统计学等相关专业硕士及以上学历。
2.熟练掌握 Python/C++/Java 中至少一门语言，具备扎实的数据结构与算法功底，具备良好的工程实现能力。
3.熟练使用 PyTorch / TensorFlow 等深度学习框架，具备主流模型微调与分布式训练经验。
4.在以下至少一个方向具备深入研究或项目经验者优先：多模态理解（图文/视频/语音/行为融合）、大语言模型（LLM）指令微调、RAG、RLHF 等技术、搜索 / 推荐 / 广告排序模型（CTR、CVR、召回）、生成式推荐、内容生成与多模态对齐。
5.在顶级会议（如 NeurIPS、ICML、CVPR、ACL、KDD、WWW 等）发表论文者优先，或具备实际大模型在广告/推荐系统中的落地经验者优先。

全部评论

推荐最新楼层

02-21 15:47

上海交通大学算法工程师

阿里大模型一面

岗位名称：大语言模型算法面试时长：1h–1.5h自评分：8/10是否下一轮：是模型架构与基础原理目前主流大语言模型在架构设计上有哪些异同点？（追问）Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别？介绍一下大语言模型中的注意力机制，多头相比单头注意力有何优势？（追问）如果减少头数会发生什么？是否一定性能下降？什么是大语言模型的涌现能力？目前对该现象的研究有哪些发现？（追问）涌现能力是否和模型规模线性相关？什么是 Embedding？词嵌入和句嵌入有何不同？（追问）Embedding 层是否会参与微调？为什么？大语言模型中的 Tokenization 是如...

技术必备题库

点赞评论收藏

分享

02-27 23:18

中山大学算法工程师

大厂推荐算法面经10问

1.你知道 DPO 的损失函数公式吗，2.GRPO , PPO 与 DPO 区别是什么3.GRPO / PPO 是 on policy 还是 off policy 的， DPO 呢4.DAPO 对 GRPO 的改进有哪些5.Gspo 对 Grpo 的改进有哪些6.比较一下 process reward 和 outcome reward7.强化学习训练时遇到 reward 上升，但 validation 时效果下降，有哪些解决思路8. VeRL 框架是同步的还是异步的，具体的训练流程是什么9.了解 RL 的训推不一致问题吗？训推不一致的产生原因是什么10.你认为未来 SFT 阶段和 RL 阶段，哪个更重要📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看10道真题和解析

点赞评论收藏

分享

02-27 19:55

上海交通大学算法工程师

蚂蚁大模型一面（被问懵版

发一下问题给大家参考，攒攒人品！1. PPO的原理？从维护的四个model讲，再详细讲一下训练流程和损失函数各个参数含义？2. 为什么有了reward model还需要critic model？critic model作用是什么？3. 交叉熵和kl散度的联系和区别？PPO的kl散度可以改成交叉熵吗？分类任务可以用KL散度吗？4. GRPO的kl散度和PPO的kl散度区别？K1 K2 K3估计区别？5. rollout数量 batchsize数量和计算资源(卡的数量)有什么关系？线性？非线性？6. 真实采样数量一定等于rollout数量吗？7. 提到了拒绝采样，详细讲一下8. 你是怎么设计agent的记忆系统？9. 长期记忆如何存储？如果历史记录量非常大，怎么优化查询效率？10. 你们有没有用到类似AutoGen或LangChain的框架？为什么选这个框架？11. vLLM框架是怎么做推理加速的？

查看11道真题和解析

点赞评论收藏

分享

02-27 20:55

门头沟学院机器学习

蚂蚁金服校招大模型算法-二面

整体面试还是不错的，但是没后续了，不知道是哪里出了问题..1、实习拷打2、模型蒸馏的数据如何做的?如何清洗馏得到的数据?3、有没有使用强化学习做过数据仿真。这个之前看过一篇论文，刚好讲了一下。4、有没有了解过训练推理一致性这个领域?我讲了一下强化学习领域的推训一致性，固定flash attention分块策略，vlm推理框架固定page attention分块策略。5、模型量化如何做的。gptq，qat等等，并说明为什么选择了w8a16的量化?6、写一下ppo算法的损失函数和GAE优势函数。主要还是讲明白7、一个场景题8、手撕题hot100，中等题，合并k个升序链

查看6道真题和解析

点赞评论收藏

分享

02-28 08:30

门头沟学院机器学习

字节AI算法二面好难啊

发点面经攒攒人品1、你在线上或离线训练时，过拟合怎么处理？直接说你最有效的三个方法和拿到的收益。2、把 BN 讲透：原理是什么；训练期和推理期用的统计量有何不同；跟 LN、GN 比，分别什么时候用、怎么取舍。3、分类和回归你最常用哪些损失？你更偏好哪几个，为什么（从鲁棒性、梯度、数值稳定性上谈）。4、L1 和 L2 正则你怎么选？它们各自的效果与风险是什么，工程里你是怎么权衡的。5、二元和多分类的交叉熵你怎么写？在工程里你怎么做数值稳定实现。6、AUC 到底在统计上代表什么？你怎么计算它，在线上业务里你如何解释“这次 AUC 提升”的含义。7、你做 CTR/CVR/CTCVR 联合建模时，ESMM/ESMM2 是怎么推导与工程落地的？线上到底带来了什么收益。8、Transformer 里因果注意力的 Q/K/V 各从哪来？Mask 具体怎么实现。9、Scaled Dot‑Product Attention 为啥要除以 √dk？如果不除会出什么数值或训练问题。10、把 Transformer / Decoder‑only 的整体结构过一遍，各个组件分别在干什么，有哪些常见变体。11、位置编码这条线你怎么选：绝对 PE、相对 PE、RoPE 各自的思路、优势和局限，结合你的项目谈取舍。12、长上下文怎么搞？Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力，你的实战方案是什么。13、KV Cache 在训练和推理中的差异是什么？它的加速价值有多大，吞吐与延迟你是如何权衡的，vLLM/paged‑attention 需要注意什么。14、PEFT 方案里（LoRA/QLoRA/Prefix/Prompt‑Tuning/Adapter）你怎么选？说说稳定训练的经验。15、SFT 和对齐（RLHF/DPO/IPO/PPO）原理差在哪？在不同数据与资源条件下，你怎么选路线。16、RAG 系统你怎么设计？切分、索引、召回/重排、压缩/融合、兜底策略怎么串。17、提示词工程你是怎么搞的？System/角色/约束/分步指令怎么写，如何防越狱

查看17道真题和解析

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

33158次浏览 424人参与

# 大学生该如何认清当下的就业环境？ #

162053次浏览 884人参与

# 有哪些公司在面试时考察AICoding？ #

18547次浏览 346人参与

# 运营来爆料 #

98721次浏览 508人参与

# HR面都在聊什么？ #

13165次浏览 161人参与

# 美团开奖 #

407633次浏览 1805人参与

# 26届春招投递记录 #

3503次浏览 41人参与

# 百度工作体验 #

325277次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8083次浏览 276人参与

# 实习学到最有价值的工作习惯 #

69542次浏览 551人参与

# OPPO求职进展汇总 #

808801次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143319次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57101次浏览 370人参与

# 从投递到OC，你用了多久 #

23060次浏览 237人参与

# 什么人最适合大厂？ #

12348次浏览 132人参与

# 父母问你工作找得怎么样，怎么回 #

22502次浏览 281人参与

# 哪些公司面试还在问八股？ #

13519次浏览 123人参与

373694次浏览 2921人参与

# 我与AI的日常 #

3227次浏览 16人参与

# 我的求职进度条 #

1108581次浏览 8008人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务