11.04.2025 字节广告 二面面经及复盘

最长公共子序列 求序列?中间endpos作用?是否一定包含在最终序列中?(没跑通,时间不够寄了)

复盘:
没睡醒没想起来该用backtrack来恢复序列,写的方法错了。

rand5实现rand10?期望次数?有优化空间吗?(最后一个没答上来)

后续复盘:

之前我答的rand5(), 若1,3则 += 0, 2,4 += 0,5重骰,这种方式无法优化
但对于rand5() * rand5(),若<= 20则直接%,反之重骰,这种方式有优化空间:落在21-25不重骰,直接复用作为另一个rand5

Logistic regression?为什么用CE不用MSE?(先说了极大似然估计,追问还有吗,讲了数值稳定性并加上了sigmoid函数后两者梯度的公式推导)

二分类指标?解释一下AUROC?实现中怎么做?(acc --> recall, precision, F1 --> AP & AUROC; 写TPR FPR公式 ;离散化,给定若干个threshold,记录点,然后处理成类似柱状图的计算方式)

模型训练出现NaN或者loss不下降的情况?

简历项目拷打,讲的强化学习

介绍一下强化学习的这些策略?

DQN -- > PG --> AC --> A2C,没来得及讲PPO,追问Q和V的关系

问GRPO的具体reward?(大致按照自己理解讲了一下怎么从PPO来的,核心在同个state做出不同动作多次采样,归一化训练),训练时间与PPO相比?(其实不是太清楚,从策略空间分析了一下,单次epochGRPO更慢,因为多次采样,达到相同效果需要时间更少,因为当策略空间很大时,PPO需要更多采样次数才能达到与GRPO相同的效果,即多次到达同一个state 选择不同action)训练过程除了你讲的多次采样还有区别吗(没答上来)

Update: 没想到过了,感谢面试官捞人!
全部评论

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对&nbsp;RAG&nbsp;系统产生哪些影响?3.文档切分策略是如何设计的?chunk&nbsp;size&nbsp;和&nbsp;overlap&nbsp;会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的&nbsp;RAG&nbsp;系统如何处理这种情况?8.在&nbsp;RAG&nbsp;系统中如何判断问题出在检索模块还是生成模块?9.请详细说明&nbsp;Transformer&nbsp;从输入&nbsp;token&nbsp;到输出&nbsp;logits&nbsp;的完整计算流程。10.FFN&nbsp;层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA&nbsp;在推理阶段的&nbsp;KV&nbsp;Cache&nbsp;占用和计算效率上有什么差异?12.为什么推理阶段&nbsp;KV&nbsp;Cache&nbsp;只缓存&nbsp;K&nbsp;和&nbsp;V,而不缓存&nbsp;Q?13.RoPE&nbsp;的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction&nbsp;tuning&nbsp;中多轮对话数据训练时,loss&nbsp;mask&nbsp;应该如何设计?15.如果&nbsp;SFT&nbsp;之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA&nbsp;的低秩分解为什么能够逼近全参数微调的效果?17.如果&nbsp;LoRA&nbsp;的&nbsp;rank&nbsp;设置不合理,在模型表现上会出现什么现象?18.DPO&nbsp;训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务