26校招淘天大模型算法二面
1.介绍自己的项目
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好(大一些,甚至可以到10k+,为12.了构造好的negative样本)
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好(大一些,甚至可以到10k+,为12.了构造好的negative样本)
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
01-19 12:48
门头沟学院 C++
只想搞钱的鸽子很喜欢...:混账是很多的,还有那些在自己风华正茂的年纪说风凉话讥讽那些下岗前员工的。这些人都是现在职场环境这么烂的帮凶 点赞 评论 收藏
分享

华为HUAWEI公司氛围 740人发布