4.2 字节一面1.论文跟实习经历的关系2.实习中,处理的时序数据都是什么样的数据?信号代表什么?3.详细介绍一下项目中的技术部分是怎么做的?(基本都是结合论文)4.做pre-training的时候loss的权重是怎么设计的?5.简述一下几篇对比学习的工作,介绍一下技术发展脉络?是否了解MoCo?6.有没有做过大模型微调?LoRA是否了解?为什么可以省显存?7.Agent项目里用的框架是什么?它是怎么决定自己要做哪一步的?8.workflow和agent的主要的区别9.问了几个GRPO的问题10.讲一下归纳偏置11.解决模型过拟合的方式12.transformer里的因果attention怎么实现的13.介绍一下位置编码?旋转位置编码的作用14.梯度消失和梯度爆炸的原因?如何解决?15.手撕:最长无重复子串