高德推荐算法校招一面

1.实习介绍
2.transformer为什么比RNN好,有没有scaling law
3.介绍一下新闻推荐的项目
4.新闻推荐比赛的正负样本怎么确定
5.了解生成式推荐吗?
6.SID如何训练的
7.Tiger为什么不采用decoder-only的形式呢
8.否熟悉推理优化中的flash-attention和KV-Cache?
9.KV-Cache出现在训练中还是推理中?
10.为什么不出现在训练中使用KV-Cache?
11.注意力的优化是否了解?
12.手撕:接雨水
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务