淘天大模型面经
1. 介绍自己的项目
2. LLaMA和GLM的区别,模型架构等方面
3. BLEU和ROUGE
4. 数据量和这个效果之间的关系是什么样的
5. LLM的参数介绍(temp topk top p等)
6. 长度过长怎么处理,从是否fix原有模型回答。(BPE 扩展词表,分阶段generate)以及从input直接回答
7. PEFT的方式
8. data construction的tricks
6. 淘天客服部门
1. LLM generate 参数问题
2. slef-attention得根号d
3. LLM的评估
4. 介绍下simCSE
5. 解决tokens不够的问题应该怎么办
6. 详细介绍下deepspeed(三个stage结合参数回答)
7. gpt和llama的区别(模型结构上的)
8. LORA论文讲一下,对比p-tuning
9. LLM训练的时候为什么warmup
pretrain数据量大,前面的数据量占比小,可能带来bias
参数量大,初始化的时候w是随机的,防止爆炸
10. 对比学习中的batch size是大一些好还是小一些好->大一些,甚至可以到10k+,为了构造好的negative样本
11. coding:
给你一个数组,返回其中的前k个出现频率最高的元素,假设数组特别大,k很小
2. LLaMA和GLM的区别,模型架构等方面
3. BLEU和ROUGE
4. 数据量和这个效果之间的关系是什么样的
5. LLM的参数介绍(temp topk top p等)
6. 长度过长怎么处理,从是否fix原有模型回答。(BPE 扩展词表,分阶段generate)以及从input直接回答
7. PEFT的方式
8. data construction的tricks
6. 淘天客服部门
1. LLM generate 参数问题
2. slef-attention得根号d
3. LLM的评估
4. 介绍下simCSE
5. 解决tokens不够的问题应该怎么办
6. 详细介绍下deepspeed(三个stage结合参数回答)
7. gpt和llama的区别(模型结构上的)
8. LORA论文讲一下,对比p-tuning
9. LLM训练的时候为什么warmup
pretrain数据量大,前面的数据量占比小,可能带来bias
参数量大,初始化的时候w是随机的,防止爆炸
10. 对比学习中的batch size是大一些好还是小一些好->大一些,甚至可以到10k+,为了构造好的negative样本
11. coding:
给你一个数组,返回其中的前k个出现频率最高的元素,假设数组特别大,k很小
全部评论
同学,瞅瞅我司,医疗独角兽,我的主页最新动态,绿灯直达,免笔试~
相关推荐
昨天 10:28
吉林大学 测试开发 点赞 评论 收藏
分享
点赞 评论 收藏
分享

点赞 评论 收藏
分享
10-16 18:32
门头沟学院 Java 开心小狗🐶:铁饭碗是好,可是不是要考虑一下端上的几率,没考上的话,回家啃老二战吗
。能走的有国考省考选调,我都没有把握一击必中,太菜了
。省会市区太卷,县城公务员一月3k,自己都养活不了,更别说养活父母了。
不过,有想法的人自然会去试一下的,毕竟正值国考报名期间。
点赞 评论 收藏
分享