26校招淘天大模型算法二面
1.介绍自己的项目
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好(大一些,甚至可以到10k+,为12.了构造好的negative样本)
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好(大一些,甚至可以到10k+,为12.了构造好的negative样本)
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
全部评论
同学,瞅瞅我司,医疗独角兽,
我的主页最新动态,绿灯直达,免笔试~
相关推荐

