高德地图大模型算法二面 业务拷打

发一下问题给大家参考,攒攒人品!
1.刚刚提到用户画像体系有几大类标签,能具体讲一下这几类分别是什么吗?每一类大概有哪些代表性的标签
2.一共沉淀了多个标签,这些标签一开始是怎么设计出来的?是算法驱动还是业务驱动
3.在设计标签体系的时候,你们怎么判断一个标签是有业务价值的?有没有出现过做出来但业务用不上的标签
4.刚才说用户画像主要是给推荐和广告用的,那在推荐系统里面,这些标签一般是怎么被消费的
5.做用户画像的时候,怎么避免标签之间高度相关甚至重复的问题
6.刚才说用 DeepSeek R1 做标签挖掘,那模型输入的数据具体有哪些?
7.用户行为序列一般都很长,为什么不直接喂给模型,而是做了行为压缩?压缩具体是怎么做的
8.压缩的过程中有没有可能丢失关键信息?你们怎么评估这个影响
9.在Prompt 里是怎么设计输出格式的?如果模型输出格式不稳定,工程上是怎么处理的
10.为什么要在 Prompt 里加入很多禁止做什么的约束?为什么这种负向约束通常比正向指令效果更好?
11.为什么标签做语义分组,为什么把同一类标签放在一起预测会更稳定呢
13.把 R1 的结果拿去做 SFT,为什么要做这一层?直接用大模型不行吗?
14.R1 生成的标签本身就可能有噪声,那怎么保证蒸馏训练的数据质量?
15.如果只保留高置信度样本,那低置信度的标签是直接丢弃了吗?有没有办法提高覆盖率?
16.如果 Teacher 模型本身准确率只有70%到80%,那 Student 模型蒸馏之后会不会进一步下降
17.在这个场景里,蒸馏后的模型效果是怎么评估的?
18.做 POI 价格推理的时候,为什么要区分有图和无图两种模型?为什么不统一用一个多模态模型?
19.判断一个商户消费水平的时候,图片里哪些信息对模型最有帮助?
20.人均价格是一个连续值,那模型预测的时候是完全自由生成的吗
21.价格预测本身可能存在很大噪声,怎么评估模型效果的?业务上更关注什么指标?
全部评论

相关推荐

02-25 13:02
中南大学 C++
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务