找不到实习的大摆子

2024-03-29 21:55 北京大学自然语言处理

关注

微软 bing LLM 应用面经

这次面的是工程院 bing 团队的 LLM 应用组，问的问题量不大，有一些比较开放性的问题比较有意思。
1.自我介绍两面都有
2. 主要会根据项目做一些介绍，这个一面久，二面短一些。
3. 一面问了 transformer 结构
4. 有没有做过大模型之外的 NLP 相关的内容（简单讲了讲）
二面的开放性问题
5. 做 rag 应用的时候，如果幻觉问题严重怎么办？比如已经给了很多 rag 召回的内容了，但是还是错误很多，尤其是一些时间数字类的信息，很容易不准确。（我回答：类似于指令微调，构造对应的数据集，微调强化大模型对检索的内容的跟随能力）
6.接着上面，那你觉得这种数据集怎么构造呢？检索的内容和问题很好弄，但是答案怎么获取方便？（我：我觉得可以反向构造，我先从网络上爬一堆内容作为答案，比如把新闻里的一些信息作为答案，然后让大模型比如 gpt4 生成对应的问题，再检索召回相关的内容，构造数据集。面试官说这个想法还挺有意思的）
7. 我想通过加噪声的方式提高模型的鲁棒性，你觉得这个噪声应该怎么加好？或者说怎么确定加在 token 的什么位置，加什么 token？（不太懂，我就说从我一般的理解，加噪声都是从 embedding 去加的，比如随机加一些高斯噪声提高鲁棒性）
8.如果我做 rag 召回的相关内容里，会有人恶意注入了一些错误的信息，你觉得会影响大模型的生成内容吗？怎么避免？（我认为肯定会有影响，因为关注的信息有错。我觉得可以提高召回的信息量，从而稀释错误信息占比来解决）
9.接着上面的回答，我们的输入长度有限制，不能无限加召回的内容怎么办？（可以在检索召回链路中再加一层，类似于粗排后再精排一次，从而减少错误信息的量）
其他的不记得了，就是感觉现在面试很喜欢问一些开放性问题。
代码题
一面编辑距离，二面是一个有序数组左边平移一定位置后的数组，找到一个 target 的下标。都不算难。

全部评论

推荐最新楼层

门头沟学院算法工程师

微软北京算是你校的大本营哈哈哈占比不小

2 回复分享

发布于 2024-04-05 18:47 江西

哈尔滨工业大学（深圳）自然语言处理

面了很多大模型暑期机会，面对一些开放性问答的时候感觉是最容易博得面试官好感的部分，大佬太强了！持续关注交流

1 回复分享

发布于 2024-04-01 15:10 广东

抬头吧相信爱你便能飞

哈尔滨工业大学（深圳）算法工程师

想问下LLM应用这个方向招的公司多吗

点赞回复分享

发布于 2024-04-15 22:18 广东

石家庄市第一职业中专学校 C++

佬有拿到oc吗

点赞回复分享

发布于 2024-04-06 21:31 北京

合肥工业大学自然语言处理

其实我觉得加噪声应该在数据集上就加，一种是人产生的噪声，这是有固定模式的；另一种，就是模型训练的本身的噪声了。

点赞回复分享

发布于 2024-04-06 03:57 江西

别开盒我吧

清华大学算法工程师

问下大佬，微软哪里投呀

点赞回复分享

发布于 2024-03-30 23:11 北京

03-14 09:53

吉林农业大学算法工程师

百度大模型开发一面

1、自我介绍2、项目介绍3、介绍 NLP 中数据增强方式NLP 中常见的数据增强方式主要有同义词替换、随机插入、随机删除、随机交换、回译、模板扩写、噪声注入、对抗样本增强和基于大模型的数据改写。同义词替换是把句子中的部分词替换成语义相近的词；随机插入和删除适合做轻量扰动；随机交换适合增强模型对局部顺序变化的鲁棒性；回译是把句子翻译成另一种语言再翻回来，能够保留大意但改变表述；模板扩写适合分类和信息抽取任务；噪声注入比如加入错别字、空格、标点变化，适合提升鲁棒性；对抗样本增强更偏训练阶段优化；现在更常见的是让大模型做改写、扩写、同义表达生成。数据增强不能只追求数量，更重要的是标签一致性和语义不偏...

AI-Agent面试实战...

点赞评论收藏

分享

02-27 09:35

门头沟学院机器学习

百度 LLM算法校招二面强度拉满了

发一下问题给大家参考，攒人品中。。。1.实习中多智能体系统包含几个智能体?它们之间如何交互?2.实习中意图识别模型需要识别多少个意图?3.750B模型用于什么场景?4.实习中Qwen3VL模型是多少B的?用于什么场景?5.在实习中，你主要的贡献是什么?6.检索环节做了哪些优化?7.答案生成环节做了哪些优化?8.是否做了SFT或强化学习相关工作?在哪个环节做的?9.SFT过程中是否对类别标签做了清洗或修正?10.强化学习的样本量是多少?11.基础模型经常分类分不准的案例有哪些?12.在校项目中，为什么用对话数据来增强数据集?13.在校项目任务的输出可以简单描述并举例吗?14.单智能体能否完成相在校项目关工作?为什么要智能体？15.LangGraph相对其他开源智能体编排工具的优点是什么?16.在现有场景中是否需要用到LangGraph的状态管理功能?17.如何理解Long-termMemory的实现方式?18.若将电商场景中用户的购买、点击、兴趣等信息设计为长期记忆，有什么想法?19.Context Window能否储存大量电商交互信息?如何解决存储问题?20.推理时若将大量Memory以Token形式给到大模型，Token长度过长该如何处理?21.强化学习有哪些常用技巧?22.若通过SFT进一步提升模型准确率，常用的手段有哪些?23.SFT的理想数据量是多少?如何确定?24.SFT数据分布一般怎么取?为什么选择该分布而非其他分布?

查看24道真题和解析

点赞评论收藏

分享

03-15 10:35

吉林农业大学算法工程师

快手 AI Agent开发一面

1、为什么引入父子索引，为什么引入 BM25，比例是怎样的，具体流程是什么，有没有 rerank父子索引主要是为了解决 切块后召回准，但是上下文不完整 的问题。如果文档直接按 300～500 token 切成小块做向量检索，确实更容易召回到具体答案，但很容易丢掉原文结构，比如标题、段落关系、表格上下文、前后约束条件。所以会把文档拆成两层：父块：保留完整语义单元，通常是 800～1500 token子块：用于召回，通常是 200～400 token检索时先搜子块，命中后回源到对应父块，再把父块内容喂给大模型。这样既保证召回精度，也保证上下文完整性。引入 BM25 是因为向量检索对语义相似比较敏感...

AI-Agent面试实战...

点赞评论收藏

分享

03-13 00:30

门头沟学院推荐算法

大模型算法面经分享日常实习

攒攒人品～ 1. Lora应用于哪些模块？为什么是这两个模块？2. Lora两个矩阵怎么初始化？它们的初始化方式能交换吗？为什么？3. Lora r 怎么设置的？为什么这样设置？4. 残差连接的作用？5. 怎么train一个好的lora？具体超参数怎么设置的怎么调优？为什么不只靠学习率，为什么还需要ahlpa/r？6. top-k，top-p，temperature是怎么实现的？7. Qwen2.5VL做了哪些改进？8. 为什么大模型需要强化学习，比起SFT有什么区别？9. 现在的embedding模型有哪些问题？怎么改进？

查看9道真题和解析

点赞评论收藏

分享

02-21 15:47

上海交通大学算法工程师

阿里大模型一面

岗位名称：大语言模型算法面试时长：1h–1.5h自评分：8/10是否下一轮：是模型架构与基础原理目前主流大语言模型在架构设计上有哪些异同点？（追问）Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别？介绍一下大语言模型中的注意力机制，多头相比单头注意力有何优势？（追问）如果减少头数会发生什么？是否一定性能下降？什么是大语言模型的涌现能力？目前对该现象的研究有哪些发现？（追问）涌现能力是否和模型规模线性相关？什么是 Embedding？词嵌入和句嵌入有何不同？（追问）Embedding 层是否会参与微调？为什么？大语言模型中的 Tokenization 是如...

技术必备题库

点赞评论收藏

分享

评论

15

59

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 大厂实习和小厂实习最大的区别是什么？ #

3794次浏览 24人参与

# 参加完秋招的机械人，还参加春招吗？ #

120100次浏览 764人参与

# 招商银行数字金融训练营 #

40934次浏览 401人参与

# 牛友の3月总结 #

3521次浏览 33人参与

# 拼多多工作体验 #

52829次浏览 344人参与

# 面试被问到不会的问题，你怎么应对？ #

1021次浏览 12人参与

# 厦门银行科技岗值不值得投 #

10098次浏览 255人参与

# 这些公司卡简历很严格 #

95365次浏览 418人参与

# 研究所VS国企，该如何选 #

259192次浏览 2013人参与

# 通信硬件知识分享 #

48192次浏览 538人参与

# 实习最想跑路的瞬间 #

131055次浏览 740人参与

# 找AI工作可以去哪些公司？ #

18740次浏览 868人参与

# 从事AI岗需要掌握哪些技术栈？ #

16072次浏览 973人参与

# 你做过最难的笔试是哪家公司 #

49634次浏览 875人参与

# 机械人怎么评价今年的华为 #

231824次浏览 1538人参与

# 材料人的华为红黑体验 #

41616次浏览 200人参与

# 金三银四，你的春招进行到哪个阶段了？ #

25122次浏览 300人参与

# 说说你知道的学历厂 #

391079次浏览 1379人参与

# AI面会问哪些问题？ #

38058次浏览 1194人参与

# 想给25届机械人的秋招建议 #

47819次浏览 251人参与

# 如何排解工作中的焦虑 #

292809次浏览 2606人参与

# 机械人避雷的岗位/公司 #

62951次浏览 395人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务