字节跳动 广告算法实习生-行业技术 一面凉经
时间:2025.5.23
时长:1h35min,视频面
围绕简历上的项目相关进行提问:
- 广告CTR、CVR建模目标,模型是否属于二分类,具体如何训练
- 为什么要使用ESMM模型。对于CTR和CVR预估这两个任务怎么做的,怎样把他融合起来的?CTCVR是怎么融合起来的
- 在代码实现界面实现ESMM模型的loss,写ESMM前向推导过程,正负样本是什么,是否要加CVR任务,最终评估的AUC是怎么来的/哪个任务(是CTR任务吗,CVR做了吗,CTCVR的AUC是否有提升)
- ESMM解决样本选择偏差问题的核心,在项目中的具体体现,包括AUC提升的样本等
- 写二元交叉熵损失的数学表达式
- AUC的含义,如何计算,除了对ROC曲线面积做积分以外还有什么其他方法如果现在的AUC是0.6,负样本的样本量减少一半,现在的AUC是多少
- eCPM怎么做的,bid怎么给的,具体实现逻辑,如何模拟?
- 构建模型的时候用了哪几类特征,预处理后怎么加入的模型。主要讲述在做完缺失值处理后,使用了怎样的特征工程方法,再将这个特征送入模型,数值类特征直接送入神经网络模型中吗,类别特征怎么送入模型,编码器中存的什么信息,16进制直接送入模型吗?
- 神经网络模型特征常用预处理方法,其他处理特征的方式以及送入模型的方式。为什么要分桶,分桶为什么能增加非线性表达,分完桶如何送入的模型,这几个桶怎样编码或者怎样处理。
- 为什么要转化为one-hot形式,one-hot是直接送入吗,是把01直接送入模型吗,等等
- 怎样定义冷启动,为什么会优化,为什么有新数据,新数据为什么要做冷启动,不做冷启动会有什么问题
- 模型过拟合怎么解决,数据怎么增强
- L1和L2正则化的区别,L1正则化最终达到一个怎样的效果
- 什么是高维度数据,高维度怎么定义,是dimension吗
代码题:
- 实现一个只有+-*/的正整数计算器
概率题:
- 一个均匀的小棍,随机切两刀,小棍能分成三段,这三段能拼成三角形的概率是多少
反问:
- 部门业务:面向本地生活,对dy团购这些广告主做广告投放(投放链路、出价等)上的优化
- 实际业务与项目的区别
感受:刨根问底,问得很细很深,会不断拓展,蛮消耗人的不过菜是原罪了,还是得吸取经验多多学习