NLP算法面经14

10.15 携程 NLP(2+1)
1. 项目+实习
2. Lora原理以及初始化
3. Lora参数含义
4. Deepspeed三阶段
5.  强化学习框架
6. PPO,DPO,GRPO
7. PPO的critic model作用
8. 大模型温度系数作用,topk和p的区别
9. bert的位置编码以及ROPE
10. 深入探讨Deepseek的技术
11. 深入探讨MOE和Dense模型
12. 代码题:接雨水
#大模型# #多模态人工智能# #nlp# #互联网大厂# #互联网大厂实习# #面经#  #携程#
全部评论
Lora参数详解下
点赞 回复 分享
发布于 2025-05-12 22:48 四川

相关推荐

昨天 06:35
门头沟学院 Java
给我面没招了,发点面经攒攒人品~1.项目拷打2.提示词模板是怎么设计和迭代的?你怎么判断一个模板是真的更好了?3.你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过另一种方案?4.Agent 任务是怎么拆分的?拆分粒度是怎么决定的?5.上下文是怎么构建的?你们怎么避免上下文过长或者信息污染?6.如果上下文窗口不够,你优先保留哪些信息?为什么?7.你们做代码理解的时候,AST、调用关系这些信息是怎么用起来的?8.单测生成里,哪些代码其实不适合生成单测?你们是怎么识别并过滤的?9.覆盖率高但测试质量很差,这种情况你见过吗?你们是怎么解决的?10.mock 在单测里什么时候是必须的?什么时候反而会带来问题?11.如果一个函数依赖数据库和RPC,你怎么让模型生成的单测还能稳定运行?12.你们怎么评估生成单测的质量?除了覆盖率,还有哪些指标?13.LLM 的输入到底是什么?模型真正看到的是什么?14.self attention 的核心作用是什么?为什么要拆成 QKV?为什么 attention 可以建模长距离关系,15.为什么需要 multi-head为什么 attention 可以看成动态加权16.同一个 token 的 Q、K、V 为什么不一样?17.attention 复杂度很高,如果上下文特别长,你会怎么优化?18.模型产生幻觉的时候,一般是什么原因?工程上有什么办法降低
查看18道真题和解析
点赞 评论 收藏
分享
攒攒人品!有面试过同岗的朋友欢迎评论区交流1.项目拷打2.实习拷打3.OCR 结果有噪声或错误时,你是怎么做纠错或提升解析质量的?4.多模态检索中,图像和文本向量不在同一空间时,如何实现对齐?5.Agent 中长短期记忆如何设计?各自存什么,怎么触发读取?6.多轮对话中,如果不同轮次的记忆发生冲突,你如何处理?7.用户情绪异常(投诉、愤怒)时,Agent 如何在不中断主流程的情况下进行干预?8.长文档为什么一定要切 chunk 再做向量化?不切会有什么问题?9.chunk切分时为什么要有重叠区域?比例一般怎么确定?10.稠密向量和稀疏向量的区别是什么?各自适合什么场景?11.是否做过关键词召回和向量召回的融合?具体怎么做的?12.向量检索中 Top-K 设置过大或过小分别会带来什么问题?13.余弦相似度和欧氏距离在高维空间中的差异是什么?实际怎么选?14.为什么需要 rerank 模型?它解决了向量召回的哪些问题?15.rerank之后的截断策略是怎么设计的?为什么选这个 K 值?16.文档发生局部更新时,如何做增量索引而不是全量重建?17.RAG 中如果没有召回到相关知识,如何约束模型避免胡编?18.HyDE 在 query 模糊时是如何提升召回效果的?19.超长上下文模型出现后,RAG 架构的必要性是否会下降?20.大模型高并发调用时,如何做限流、降级和成本控制?
点赞 评论 收藏
分享
评论
4
20
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务