字节大模型llm实习算法一面

发一下问题给大家参考,攒攒人品!
1.实习拷打
2.项目拷打
3你能详细的说一下他们在数据构建流程上的区别吗
4.RL  阶段的数据筛选你具体是怎么做的
5.比如说这个图文对的话,就是它的标签是怎么来的呢
6.在训练这个模型中存在哪些问题你遇到哪些问题,是怎么去解决的
7.就是你刚才说的那个把那些序列拼接成8192的长度,是不是就是Sequence Packing 的做法
8.那你们在处理 VLM 视觉特征时的具体 Packing 细节是怎么样的?因为视觉 Tokens 的处理逻辑肯定比纯文本要更复杂一些
9.怎么去评估,他那个推理过程是否正确呢
10.介绍一下GSPO 在处理这种多维奖励时的具体收敛策略是什么样的
11.你说的这个结果奖励打分模型。大概是用的啥模型?它准确率大概是多少
12.比如说你这个 Thinking 和No-thinking的数据就是它的比例是三比一,你是基于什么得出来的
13.说一下GSPO和GRPO的区别
14.为什么你在在xx公司选 GSPO,在xx公司实习的时候选 GRPO
15.Self-Attention中Q/K/V各自作用?为什么要分开?
16.把K换成Q(QQV)可行吗?为什么?
15.手撕:按指定概率采样(如[(1,0.5),(2,0.1),(3,0.4)])
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-27 09:23 广东
聊的还挺多,过了吗
点赞 回复 分享
发布于 03-24 18:42 北京

相关推荐

04-16 04:30
门头沟学院 Java
感觉面完人都通透了,还是太菜了,下去沉淀一下1.实习项目相关问题2.介绍智能客服系统中你的负责部分、面临的问题及解决方案。3.如何解决大模型在客服场景中的幻觉问题?4.是每个场景对应多个 Agent?5.新架构是否存在泛化性损失问题?如何处理新活动规则等未见过的知识注入?6.Expert Agent 是以什么维度划分的?7.新架构的 AB 测试指标提升具体来自哪些模块?8.如何从线上真实对话构造Expert Agent 的 SFT 训练数据?9.Expert Agent 的 prompt 主要输入有哪些?模型输出是什么?10.Expert Agent 是否有预设工作流(workflow)和任务描述?11.Expert Agent 的评价指标(出商品率、商品正确率)具体如何定义和获取评测数据?12.智能客服 Chatbot 是否面临多轮对话中信息遗忘、流程偏离、回复机械感的问题?如何应对?13.如何优化多智能体系统(MAS)中各 Agent 的协作,避免局部优化但整体效果不佳?14.多智能体系统中如何设计奖励函数促进 Agent 协作而非竞争?八股1.什么是优势函数?2.PPO 中需要训练哪几个模型?3.PPO 中参考模型的作用是什么?4.什么是 Reward Hacking?有哪些缓解 / 优化方案?5.智能对话多轮场景中,attention 机制的局限性是什么?有哪些优化思路?手撕:排序K个升序链表
查看19道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务