26校招作业帮NLP算法一面

Agent项目深挖
1.SFT vs GRPO 在训练流程的作用区别?
2.数据规模。用了多少条数据?不同类别的比例?
3.数据筛选机制。如何筛选/评估高质量数据?
4.训练过程中的难点。是否遇到 reward hacking、训练不稳定、收敛慢等问题?如何解决?
5.失败case。模型在哪些场景下表现差?根本原因是什么?有哪些改进方案?

Diffusion项目深挖
整体 pipeline 是如何串联的?各模块之间如何交互?看起来性能高度依赖模块A ,如果 A 失效,最终结果会下降多少?

八股
1.BERT架构、输入,训练流程,位置编码
2.Decoder only 文本模型的结构和参数量分析
3.Qwen系列的位置编码,优势是什么
4.LLM模型的损失函数,第一个token的损失是什么

手撕
完全背包问题,动态规划,凑成面额为y的最少货币数量
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务