4.21 投简历4.23 约后天一面4.25 一面无手撕,上来先拷打论文,其中有个地方用了rag,面试官问我这里是怎么把文本转换成向量储存的。(我以为是问我工程上的实现,这是去年做的一个小模块,回忆了半天细节,答得支支吾吾,面完了之后结合下一个问我才意识到其实是问我embedding过程)看我支支吾吾就直接问transformer是怎么把token处理成向量的。transformer的self-attention和cross self-attention区别在哪里。pre-norm和post-norm的区别?进一步,为什么现在主流大模型都用post-norm。lora的实现过程。大模型用的Lo...