03-30 07:20 门头沟学院算法工程师

关注

字节大模型应用算法凉经分享-实习

被横向挂了，希望发出来对大家有帮助！
1. 训练用户模拟器面试官时样本数据中多轮对话session问题连贯性如何保证。
2. 如何评估用户模拟器面试官模型
3. 面试官模型问题同质化严重问题
4. 评价官模型多智能体结构
5.leetcode 动态规划改编体题

全部评论

推荐最新楼层

上海交通大学算法工程师

强烈推荐！这个笔记写得很清晰 http://github.com/AccumulateMore/CV

1 回复分享

发布于 03-31 10:20 广东

武汉大学算法工程师

考虑我多实习吗？部门核心，负责主站搜广推业务，hc较多，转正概率高，感兴趣点我主页了解详情

点赞回复分享

发布于 03-30 20:28 上海

03-31 00:39

广西大学算法工程师

微信大模型算法开发一面

1. 介绍下你实习学了什么 做过什么项目,为什么离职的2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪MoE 的关键不是“参数变多了”，而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大，但单次前向只走少数几个 expert，所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力，因为可以同时兼顾容量和成本。但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert，训练会很不稳定，热门 expert 被打爆，冷门 expert 学不到东西。另一个难点是通信开销，尤其多机训练时，token dispatch 和 gat...

AI-Agent面试实战...

点赞评论收藏

分享

03-30 04:40

门头沟学院算法工程师

京东日常实习-大模型应用算法凉经

被横向挂了，希望发出来对大家有帮助！项目拷打+实习拷打1. GRPO在线学习策略过程，listwise 数据如何训练reward模型。2.MOE模型相关原理和微调经验。3. 逆序对实现和讲解（计算逆序对时如何避免重复计算）

查看3道真题和解析

点赞评论收藏

分享

03-31 00:26

广西大学算法工程师

小鹏大模型算法二面

1. 你做过的后训练项目里，最难解决的问题是什么2. SFT 数据你怎么构造，怎样避免模型被训练“油了”SFT 最大的问题不是量不够，而是数据风格太单一，最后把模型训成一种固定腔调：很会说、很圆滑、但信息密度低。构造数据时我一般会先按任务拆层，比如信息抽取、工具调用、复杂问答、拒答、安全、长文总结、结构化输出，每一层的目标都不一样。然后再做难度分桶，避免模型只见过简单样本。另一个关键点是负面风格清理。很多数据表面上没错，但非常模板化，比如“这是一个非常好的问题，让我们一步一步分析”，这类东西在少量数据里没问题，规模一大就会把模型带偏。所以我会专门清掉这种“高礼貌、低信息”的样本，保留更接近真实...

AI-Agent面试实战...

点赞评论收藏

分享

03-24 10:25

门头沟学院人工智能

百度文策大模型二面面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的？如果数据质量参差不齐会对 RAG 系统产生哪些影响？3.文档切分策略是如何设计的？chunk size 和 overlap 会如何影响召回质量和生成效果？4.如果用户的问题在知识库中确实存在，但系统经常没有召回正确文档，你会如何排查？5.如果检索到的文档是正确的，但模型最终生成的答案仍然是错误的，你会如何定位问题？6.实际系统中，如果召回结果经常语义相似但事实不相关，你会如何优化检索模块？7.如果一个问题需要跨多个文档的信息才能回答，你的 RAG 系统如何处理这种情况？8.在 RAG 系统中如何判断问题出在检索模块还是生成模块？9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构，这种设计对模型表达能力有什么作用？11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异？12.为什么推理阶段 KV Cache 只缓存 K 和 V，而不缓存 Q？13.RoPE 的核心原理是什么，它在长上下文场景下会遇到什么问题？14.instruction tuning 中多轮对话数据训练时，loss mask 应该如何设计？15.如果 SFT 之后模型在特定任务上能力增强，但通用能力明显下降，你会如何解决？16.LoRA 的低秩分解为什么能够逼近全参数微调的效果？17.如果 LoRA 的 rank 设置不合理，在模型表现上会出现什么现象？18.DPO 训练后模型输出明显变长，在实际系统中你会如何处理？19.如果对齐之后模型变得过于保守，经常拒绝回答，你会如何调整训练策略？20.大模型出现复读机现象通常由哪些因素导致？

点赞评论收藏

分享

04-10 20:59

广西大学算法工程师

滴滴大模型算法开发一面

1. 自我介绍2. 多模态里的旋转位置编码是怎么落到二维视觉 token 上的二维视觉 token 不像纯文本那样天然是一维顺序，所以多模态里的 RoPE 通常不会直接照搬文本侧。常见做法是把二维位置拆成行和列两个轴，分别做旋转位置编码，再把两个方向的信息组合到同一个视觉 token 表示里。这样模型在注意力里不仅能感知“前后”，还能保留一部分“上下左右”的相对结构。真正难的不是公式本身，而是视觉 token 经过压缩、重采样、patch merge 之后，原始空间坐标已经不再一一对应。这个时候二维 RoPE 的设计就要和视觉编码器、projector 以及后续 token 压缩方式一起看，否...

AI-Agent面试实战...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

34477次浏览 433人参与

# 大学生该如何认清当下的就业环境？ #

162372次浏览 887人参与

# 有哪些公司在面试时考察AICoding？ #

19255次浏览 349人参与

# 运营来爆料 #

98809次浏览 508人参与

# HR面都在聊什么？ #

13724次浏览 162人参与

# 美团开奖 #

407772次浏览 1805人参与

# 26届春招投递记录 #

3626次浏览 42人参与

# 百度工作体验 #

325410次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8499次浏览 287人参与

# 实习学到最有价值的工作习惯 #

69633次浏览 552人参与

# OPPO求职进展汇总 #

809028次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143422次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57237次浏览 371人参与

# 从投递到OC，你用了多久 #

23766次浏览 238人参与

# 什么人最适合大厂？ #

12727次浏览 133人参与

# 父母问你工作找得怎么样，怎么回 #

23044次浏览 284人参与

# 哪些公司面试还在问八股？ #

14053次浏览 125人参与

373890次浏览 2921人参与

# 我与AI的日常 #

3263次浏览 16人参与

# 我的求职进度条 #

1114213次浏览 8049人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务