抖音推荐算法三面面经

自我介绍

问学校、为什么考研?

以后的职业发展?

神经网络初始参数能不能全设成0,为什么?只有一层的神经网络也不能吗?

写一下0、1分类问题的损失函数

为什么不能用MSE?手推MSE梯度计算回传

了解transformer吗?介绍一下

Encoder与decoder的中Attention区别?

Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?

为什么要用位置编码?为什么要用sin_cos?

介绍一下你做的最好的项目?项目的背景,动机? 你觉得哪里能进行优化?时间效率上?整体效果上?

code:

best_k,时间复杂度要求O(n), 空间复杂度能做到O(1)吗?

全部评论
佬是秋招还是实习
1 回复 分享
发布于 10-07 01:36 上海
空间复杂度到O(1)?佬,这个怎么做呢?
点赞 回复 分享
发布于 10-14 00:05 北京
经典AML
点赞 回复 分享
发布于 10-05 00:14 香港
aml吗,感觉问的有点像
点赞 回复 分享
发布于 09-29 11:38 河北

相关推荐

一面/二面 压力都不大,只有一些八股值得参考:1.交叉熵损失的物理含义是什么?2.KL散度的本质是什么?3.用什么loss比较多?我说一般就mse,又通过focal loss,让我接着介绍,如何平衡正负样本。三面,我以为轻松了结果是最硬核的技术面,问了一堆八股,并且要求现写公式,不到最后都不能放松警惕啊:1.讲讲python的dict底层是怎么实现的?hash实现2.如何解决hash碰撞?说了个线性探测(其他真不记得了)3.C++的STL还熟悉吗?完全不会,3年没写了。4.好吧那不问了,flash-attention了解吗,讲讲原理?5.kv cache了解吗?6.Q要cache吗?7.讲讲常见的标准化,LayerNorm,RMSNorm?8.实际应用你觉得什么区别吗,现在哪个用的多?9.问了这么多才开始讲项目,等我讲完面试官直接总结,你的项目是在高维特征添加了一些low-level的视觉信息做work,现在有个开放的问题想问你:大模型的语料是有限的,但是搜推链路上token可能是无限的,比如可能一个蛋糕,每个用户的每一次蛋糕购买记录都是独立的,蛋糕1,2...100,你要如何解决?10.似乎我没理解对,追问不对不是这个意思,重新问:大模型的数据是非常多的,但是搜推的数据可能很高维度而且不多,比如用户看到图->点击右上角->再点到推荐购买->.......,整个特征链路非常长,这种数据量不像大模型训有非常丰富的语料,你如何解决这个训练问题?
查看14道真题和解析
点赞 评论 收藏
分享
1. 手撕 合并区间2. 八股1)请介绍 Transformer 的结构组成及各部分作用,在长序列时空数据中,2)如何降低 Transformer 的计算复杂度?常见的稀疏注意力变体有哪些?3)GNN的消息传递机制是怎样的?在时空图中,如何结合时间信息编码节点特征?你接触过哪些时空 GNN 模型?4)LoRA微调的原理是什么?秩 r 的选择会对模型表现产生什么影响?5)RAG的完整流程,在时空出行数据场景里,构建向量检索库时如何处理时间衰减对召回的影响?6)强化学习在 Agent 优化中的应用,结合出行推荐 Agent,你会如何设计 Reward 函数?3. 项目1)微调时的训练数据是怎么构建的?如何保证样本多样性和质量?2)在 RAG+时空知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?是怎样保证实时性的?3)在大规模轨迹数据下是怎么做负采样(Negative Sampling)的?4)训练 LoRA 模型时,你是如何选择冻结层的?依据是什么?5)在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?4. 开放题1)大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?2)如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
查看14道真题和解析
点赞 评论 收藏
分享
评论
2
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务