腾讯大模型实习一面 1h

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.介绍一下如何筛选数据(大模型从哪几个维度),怎么确定模型筛选一定能和人工对齐?
2.GRPO/DAPO/GSPO介绍,怎么改进?
3.如何确定问题的难度?是有一个路由器还是分类器吗?如何保证路由的准确率?
4.R1输出的CoT过长是怎么解决的?
5.两阶段强化学习是怎么做的,区别是什么?
6.为什么用gemma-3,比较冷,考量的是什么
题目:逻辑题
全部评论

相关推荐

评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务