网易有道面经(一面)

🔞 网易有道
🧑‍🔧 大模型算法岗实习
😶‍🌫️ 自我介绍+项目提问+手撕
1. 介绍自己的大模型项目
2. 数据集的制作和处理?有没有数据清理和筛选?数据总量被均分到每个角色上会不会有点少?对于数据分布不均衡的处理方式是什么?
3. 模型选的是什么基座?基座规模有过筛选吗?
4. LoRA微调的原理;LoRA微调与全量微调相比有什么不同?有试过全量微调吗?sft阶段的数据集格式?system prompt是如何设计的?
5. 如何评价微调的效果?有没有对比微调之前的效果?模型推理采样过程的各种参数(top-p、top-k、temp),温度参数如何起作用(代码简单实现)。
6. 对前沿技术的发展有何看法(deepseek、长思维链)。
7. 讲讲RLHF。
8. 项目中RAG是如何做的?
代码:进房间拿钥匙(遍历,简单粗暴)+python输入的处理
反问:岗位的日常工作、研究或产品

第一次实习面试确实有点紧张,回答得磕磕巴巴🤐,面试官很和蔼,中间不会的地方还会提醒,不至于让我太尴尬。。。
总的来说,作为第一次得体验还是挺满意的,下次还来😘
#面经##实习#
全部评论
有道的人工智能部门怎么样啊
点赞 回复 分享
发布于 2025-03-06 13:18 黑龙江
佬有约二面或者直接oc嘛
点赞 回复 分享
发布于 2025-02-27 23:17 新加坡
数据集怎么处理的
点赞 回复 分享
发布于 2025-02-26 00:22 北京
佬有论文吗
点赞 回复 分享
发布于 2025-02-22 22:24 广东
佬是26届的吗
点赞 回复 分享
发布于 2025-02-22 01:28 北京

相关推荐

03-30 18:50
门头沟学院 Java
给我面没招了,发点面经攒攒人品~1. 实习拷打2. 项目拷打3. 你的检索是否基于向量实现,搭建完整的 RAG 系统会涉及哪些核心部分?4. RAG 项目的文档上传和分块是怎么实现的?5. 向量检索召回的单次耗时是多久,有没有用到Rerank模型?6. 你如何评估检索召回内容与用户问题的匹配度,有没有做相关的效果评估?7. 你对 Agent 的理解是什么,它包含哪些核心模块?8. 是否了解 Agent 的设计范式,例如ReAct 范式?9. 你的 Agent 循环一般多少步可以完成任务,有没有出现过达到最大步数仍无法完成的情况?10. 你的 Agent 目前接入了哪些工具?11. 你是如何约定并约束大模型进行工具调用的?12. 你的项目推流是否使用 SSE?13. 你的 Agent 编排流程中有没有做 Plan 阶段?14. 从协议层面,介绍 SSE、WebSocket 与 HTTP 的区别和关联?15. 项目为什么限制每个用户只能上传单个文件?16. 项目的图像识别如何实现的,为什么不用多模态大模型,而选择传统的识别模型?17. 你的项目中用到了哪些大语言模型?18. 请介绍 Go 语言的并发和其他语言并发的区别?19. Goroutine 是什么,请介绍一下它的核心原理?20. 你对锁的理解是什么,锁是解决什么问题的?21. 日常开发中用哪种锁更多,还了解哪些后台开发常用的锁?22. 多机器、多进程场景下会涉及到哪些锁,是否了解分布式锁?23. 你对 MCP、Function Call、A2A 分别是怎么理解的?24. 你的项目接入了哪些 MCP 服务?有没有本地手写过 MCP 服务?25. 你日常开发会借助哪些 AI 工具?26. 使用这些工具的心得以及是否有写过相关的 command/skill?27. Claude Code 的实现原理?28. 是否了解OpenClaw以及了解它的实现原理?
LambertCla...:Claude Code实现原理都来了,难道是预测到了这波源码泄露
查看26道真题和解析
点赞 评论 收藏
分享
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
评论
4
19
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务