鹅厂搜推算法实习面经 攒人品中
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.正负样本极度不均衡(比如 1:1000)会对模型训练带来什么实质性问题?
2.线上线下指标不一致,是因为正负样本比例太低导致的吗?
3.假设正负样本比例是万分之一,如果模型把所有预测分都打得很低,此时的 AUC 大概是多少?AUC 的计算和正负样本比例到底有没有直接关系?
4.GAUC 主要是为了解决什么业务痛点提出来的?它本身有什么局限性?
5.计算 GAUC 进行加权平均时,为什么权重通常用“点击次数”而不是“曝光次数”?
6.如果在一个计算窗口内,某个用户没有任何点击行为(没有正样本),算 GAUC 时怎么处理这个用户?
7.长短点击序列的时间跨度分别是多久?长期序列的原始数据覆盖了多长的周期?长序列特征在工程上是在哪里、通过什么方式截断过滤的
8.介绍一下精排模型的结构(主要是讲清楚 DNN 的结构)。Attention 机制的具体计算方法?
9.算相似度除了内积还有其他操作吗?
10.对业内其他的 Attention 结构有了解吗?Multi-head Self-Attention 的 Attention Score 具体是一步步怎么算出来的?
11.手撕代码
求数组中的最长连续递增子序列的长度。
1.正负样本极度不均衡(比如 1:1000)会对模型训练带来什么实质性问题?
2.线上线下指标不一致,是因为正负样本比例太低导致的吗?
3.假设正负样本比例是万分之一,如果模型把所有预测分都打得很低,此时的 AUC 大概是多少?AUC 的计算和正负样本比例到底有没有直接关系?
4.GAUC 主要是为了解决什么业务痛点提出来的?它本身有什么局限性?
5.计算 GAUC 进行加权平均时,为什么权重通常用“点击次数”而不是“曝光次数”?
6.如果在一个计算窗口内,某个用户没有任何点击行为(没有正样本),算 GAUC 时怎么处理这个用户?
7.长短点击序列的时间跨度分别是多久?长期序列的原始数据覆盖了多长的周期?长序列特征在工程上是在哪里、通过什么方式截断过滤的
8.介绍一下精排模型的结构(主要是讲清楚 DNN 的结构)。Attention 机制的具体计算方法?
9.算相似度除了内积还有其他操作吗?
10.对业内其他的 Attention 结构有了解吗?Multi-head Self-Attention 的 Attention Score 具体是一步步怎么算出来的?
11.手撕代码
求数组中的最长连续递增子序列的长度。
全部评论
相关推荐
查看13道真题和解析 点赞 评论 收藏
分享