字节大模型agent算法一面分享

给我面没招了,发点面经攒攒人品~
1.论文拷打
2.实习拷打
3.ppodpogrpodapo常规八股;gae,tderror,bt模型的理论都有问
4.reward hacking的原因以及解决方法5.rl训练中看哪些指标,loss异常升降如何分析
6.讲讲verl的结构,关键组件,如何魔改,遇到的问题
7.对于rlvr的训练,能否认为是一种sft;
8.kI散度的推导;kl散度放在loss和放在reward里的区别,作用以及适用场景
9.对于agent架构的了解
10.手撕:二叉树层序遍历;接雨水
全部评论

相关推荐

4.8二面 4.14收到感谢信一、项目相关1. 你先做一下自我介绍。2. 你在这个开源社区里贡献了多少代码?3. 你在这个社区里做了多长时间?4. 你喜欢开源吗?为什么?5. 你觉得你一面聊得怎么样?6. 你做过互联网系统吗?比如服务端程序、接口设计、和客户端交互这类。7. 你学过数据库吗?用过数据库吗?8. 你在认证模块里用数据库存了什么?9. 你怎么判断一个 Token 是有效的?10. 密码是前端传过来的吗?前后端传输过程中有没有加密?二、数据库与认证11. 相同密码哈希后结果也相同,如果数据库被脱库,攻击者撞出一个密码后,不就能反推出所有相同哈希值的密码了吗?12. 你了解密码加盐吗?加盐是干什么的?为什么要加盐?13. 你这个盐是什么时候加的?是固定盐还是随机盐?14. 如果 Token 和用户信息存在同一行里,一个用户是不是只能有一个 Token?15. 如果用户在电脑和手机同时登录,想只失效其中一个登录态,应该怎么设计?三、系统设计16. 如果每次校验 Token 都查数据库,像微信这种高并发场景数据库扛得住吗?怎么优化?17. CDN 适合存什么?Redis 应该部署在哪里?四、计算机网络18. HTTPS 是怎么防止中间人攻击的?19. 怎么判断服务端发过来的证书是合法有效的?20. CA 是什么?客户端从哪里拿到 CA 的公钥?21. 每建立一个 HTTPS 连接,都要向互联网请求一次证书吗?证书链是怎么工作的?五、操作系统22. 说一下进程和线程的区别,能有多细说多细。23. 操作系统能感知到协程的存在吗?24. 你写过协程相关的程序吗?六、算法题25. 螺旋数组:按螺旋顺序遍历或填充一个 N×N 的二维数组,N 可以是奇数也可以是偶数。26. 二叉搜索树范围查找:给一个二叉搜索树和区间 [low, high],找出所有值在范围内的节点,并按顺序输出。要求先按非递归实现,后面放宽为递归,并考虑剪枝优化。七、个人相关27. 你觉得你有哪些优点?28. 你觉得自己有哪些需要继续提升的地方?---## 反问环节1. 如果实习生进去的话,主要会负责哪个业务?- 目前很多团队都在招,比如钱包、收银台等,后续会根据面试情况和个人兴趣做分配。钱包侧主要涉及余额、余额明细、转账、提现、充值;收银台侧主要涉及支付方式渲染、支付方式绑定等后台功能。2. 进来以后主要会做分布式业务吗?- 主要还是做后台开发,做互联网后台程序。3. 你觉得我还有哪些地方可以提升?- 如果想进互联网公司,互联网后台相关基础需要系统补一下,比如数据库使用、高并发下的常见处理方式、CDN 的使用场景,以及高并发、数据一致性等常见问题的基本原理和成熟方案。
查看28道真题和解析
点赞 评论 收藏
分享
04-16 04:30
门头沟学院 Java
感觉面完人都通透了,还是太菜了,下去沉淀一下1.实习项目相关问题2.介绍智能客服系统中你的负责部分、面临的问题及解决方案。3.如何解决大模型在客服场景中的幻觉问题?4.是每个场景对应多个 Agent?5.新架构是否存在泛化性损失问题?如何处理新活动规则等未见过的知识注入?6.Expert Agent 是以什么维度划分的?7.新架构的 AB 测试指标提升具体来自哪些模块?8.如何从线上真实对话构造Expert Agent 的 SFT 训练数据?9.Expert Agent 的 prompt 主要输入有哪些?模型输出是什么?10.Expert Agent 是否有预设工作流(workflow)和任务描述?11.Expert Agent 的评价指标(出商品率、商品正确率)具体如何定义和获取评测数据?12.智能客服 Chatbot 是否面临多轮对话中信息遗忘、流程偏离、回复机械感的问题?如何应对?13.如何优化多智能体系统(MAS)中各 Agent 的协作,避免局部优化但整体效果不佳?14.多智能体系统中如何设计奖励函数促进 Agent 协作而非竞争?八股1.什么是优势函数?2.PPO 中需要训练哪几个模型?3.PPO 中参考模型的作用是什么?4.什么是 Reward Hacking?有哪些缓解 / 优化方案?5.智能对话多轮场景中,attention 机制的局限性是什么?有哪些优化思路?手撕:排序K个升序链表
查看19道真题和解析
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务