B站大模型二面

📍面试公司:B站
💻面试岗位:大模型
❓面试问题:
聊论文聊项目
项目里穿插了一些dpo,比如dpo过拟合欠拟合怎么处理
场景题,本质上是未知长度链表如何均匀采样
闲聊+反问
🙌面试感想:体验良好,整体氛围很轻松#B站校招##大模型##暑期实习##大模型算法工程师##面试体验感最好的是哪家?#
全部评论

相关推荐

常见的业务题架构理解篇Q1 Transformer模型主要由哪两部分组成?Q2 自注意力机制中的Q、K、V矩阵是什么缩写?Q3 多头注意力中"头"(head)指的是什么?Q4 位置编码的作用是什么?Q5 Encoder和Decoder结构的主要区别?Q6 为什么要使用残差连接(Residual Connection)?基础组件篇Q7 前馈神经网络(FFN)有多少层?Q8 Layer Normalization放在哪个位置?Q9 激活函数ReLU和GeLU的主要区别?Q10 词嵌入(Word Embedding)的维度代表什么?Q11 注意力掩码(Attention Mask)的作用是什么?Q12 为什么要使用dropout技术?训练基础篇Q13 预训练(Pre-training)的目标是什么?Q14 什么是语言模型中的"自回归生成"?Q15 数据并行的基本实现方式?Q16 什么是训练中的批量大小(Batch Size)?Q17 学习率(Learning Rate)过大会导致什么问题?Q18 训练损失(Training Loss)下降说明什么?模型应用篇Q19 什么是文本生成中的贪心解码(Greedy Decoding)?Q20 温度参数(Temperature)如何影响生成结果?Q21 模型推理时为什么要限制生成长度?基础概念篇Q25 参数量(Parameters)和计算量(FLOPs)的区别?Q26 什么是生成式AI(Generative AI)?Q27 预训练模型和传统NLP模型的核心区别?Q28 为什么大模型需要海量训练数据?Q29 什么是过拟合(Overfitting)现象?Q30 模型推理(Inference)是指什么过程?工程实践篇Q31 GPU显存不足时常见的解决方法?Q32 模型权重文件(Checkpoint)包含哪些内容?评估基础篇Q37 如何评估语言模型的生成质量?Q38 困惑度(Perplexity)指标的计算原理?
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务