鹅厂搜推算法实习面经 攒人品中

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.正负样本极度不均衡(比如 1:1000)会对模型训练带来什么实质性问题?
2.线上线下指标不一致,是因为正负样本比例太低导致的吗?
3.假设正负样本比例是万分之一,如果模型把所有预测分都打得很低,此时的 AUC 大概是多少?AUC 的计算和正负样本比例到底有没有直接关系?

4.GAUC 主要是为了解决什么业务痛点提出来的?它本身有什么局限性?
5.计算 GAUC 进行加权平均时,为什么权重通常用“点击次数”而不是“曝光次数”?
6.如果在一个计算窗口内,某个用户没有任何点击行为(没有正样本),算 GAUC 时怎么处理这个用户?

7.长短点击序列的时间跨度分别是多久?长期序列的原始数据覆盖了多长的周期?长序列特征在工程上是在哪里、通过什么方式截断过滤的

8.介绍一下精排模型的结构(主要是讲清楚 DNN 的结构)。Attention 机制的具体计算方法?
9.算相似度除了内积还有其他操作吗?
10.对业内其他的 Attention 结构有了解吗?Multi-head Self-Attention 的 Attention Score 具体是一步步怎么算出来的?

11.手撕代码
 求数组中的最长连续递增子序列的长度。
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务