微软 bing LLM 应用面经
这次面的是工程院 bing 团队的 LLM 应用组,问的问题量不大,有一些比较开放性的问题比较有意思。
1.自我介绍 两面都有
2. 主要会根据项目做一些介绍,这个一面久,二面短一些。
3. 一面问了 transformer 结构
4. 有没有做过大模型之外的 NLP 相关的内容(简单讲了讲)
二面的开放性问题
5. 做 rag 应用的时候, 如果幻觉问题严重怎么办?比如已经给了很多 rag 召回的内容了,但是还是错误很多,尤其是一些时间数字类的信息,很容易不准确。(我回答:类似于指令微调,构造对应的数据集, 微调强化大模型对检索的内容的跟随能力)
6.接着上面,那你觉得这种数据集怎么构造呢? 检索的内容和问题很好弄,但是答案怎么获取方便?(我: 我觉得可以反向构造,我先从网络上爬一堆内容作为答案,比如把新闻里的一些信息作为答案,然后让大模型比如 gpt4 生成对应的问题, 再检索召回相关的内容,构造数据集。 面试官说这个想法还挺有意思的)
7. 我想通过加噪声的方式提高模型的鲁棒性, 你觉得这个噪声应该怎么加好? 或者说怎么确定加在 token 的什么位置,加什么 token?(不太懂,我就说从我一般的理解,加噪声都是从 embedding 去加的, 比如随机加一些高斯噪声提高鲁棒性)
8.如果我做 rag 召回的相关内容里,会有人恶意注入了一些错误的信息, 你觉得会影响大模型的生成内容吗?怎么避免?(我认为肯定会有影响, 因为关注的信息有错。 我觉得可以提高召回的信息量, 从而稀释错误信息占比来解决)
9.接着上面的回答, 我们的输入长度有限制,不能无限加召回的内容怎么办?(可以在检索召回链路中再加一层,类似于粗排后再精排一次,从而减少错误信息的量)
其他的不记得了,就是感觉现在面试很喜欢问一些开放性问题。
代码题
一面编辑距离, 二面是一个有序数组左边平移一定位置后的数组,找到一个 target 的下标。都不算难。
1.自我介绍 两面都有
2. 主要会根据项目做一些介绍,这个一面久,二面短一些。
3. 一面问了 transformer 结构
4. 有没有做过大模型之外的 NLP 相关的内容(简单讲了讲)
二面的开放性问题
5. 做 rag 应用的时候, 如果幻觉问题严重怎么办?比如已经给了很多 rag 召回的内容了,但是还是错误很多,尤其是一些时间数字类的信息,很容易不准确。(我回答:类似于指令微调,构造对应的数据集, 微调强化大模型对检索的内容的跟随能力)
6.接着上面,那你觉得这种数据集怎么构造呢? 检索的内容和问题很好弄,但是答案怎么获取方便?(我: 我觉得可以反向构造,我先从网络上爬一堆内容作为答案,比如把新闻里的一些信息作为答案,然后让大模型比如 gpt4 生成对应的问题, 再检索召回相关的内容,构造数据集。 面试官说这个想法还挺有意思的)
7. 我想通过加噪声的方式提高模型的鲁棒性, 你觉得这个噪声应该怎么加好? 或者说怎么确定加在 token 的什么位置,加什么 token?(不太懂,我就说从我一般的理解,加噪声都是从 embedding 去加的, 比如随机加一些高斯噪声提高鲁棒性)
8.如果我做 rag 召回的相关内容里,会有人恶意注入了一些错误的信息, 你觉得会影响大模型的生成内容吗?怎么避免?(我认为肯定会有影响, 因为关注的信息有错。 我觉得可以提高召回的信息量, 从而稀释错误信息占比来解决)
9.接着上面的回答, 我们的输入长度有限制,不能无限加召回的内容怎么办?(可以在检索召回链路中再加一层,类似于粗排后再精排一次,从而减少错误信息的量)
其他的不记得了,就是感觉现在面试很喜欢问一些开放性问题。
代码题
一面编辑距离, 二面是一个有序数组左边平移一定位置后的数组,找到一个 target 的下标。都不算难。
全部评论
微软 北京 算是你校的大本营哈哈哈 占比不小
送花
回复
分享
面了很多大模型暑期机会,面对一些开放性问答的时候感觉是最容易博得面试官好感的部分,大佬太强了!持续关注交流
送花
回复
分享
网易互娱
官网直投
问下大佬,微软哪里投呀
送花
回复
分享
其实我觉得加噪声应该在数据集上就加,一种是人产生的噪声,这是有固定模式的;另一种,就是模型训练的本身的噪声了。
送花
回复
分享
佬有拿到oc吗
送花
回复
分享
想问下LLM应用这个方向招的公司多吗
送花
回复
分享
相关推荐
查看10道真题和解析
点赞 评论 收藏
转发
查看9道真题和解析
点赞 评论 收藏
转发
点赞 评论 收藏
转发
查看9道真题和解析
点赞 评论 收藏
转发
点赞 评论 收藏
转发