4.28 字节 AI数据技术一面
一、项目深挖(医疗大模型训练)
评测指标追问
Badcase分析
看过badcase吗?你觉得还有哪些地方可以进一步优化?
(考察:数据与评测目标对齐、通用数据配比、answer质量重写)
DPO数据构建细节
DPO数据是自己构建的吗?怎么做的?
有没有考虑过用其他RL方式?为什么选DPO而不是RLHF?
二、Agent概念理解
Agent和LLM的区别是什么?怎么定义一个Agent?
如果让你做Agent能力的评测,你觉得哪些维度比较重要?
除了人工判断,怎么设计自动化评估方案?
三、Skills vs System Prompt
Skills和System Prompt的区别是什么?
如果把Skills内容全部展开,它是不是就等于一个很长的System Prompt?
四、Agentic RL训练数据设计(重点,答得不好)
如果让你做Agent方向的后训练,SFT数据怎么设计?RL数据怎么设计?
SFT做到什么程度可以开始做RL?
追问(答得卡住):Function Call这类偏封闭式的任务,入参/格式都有标准答案,为什么不直接用rule-based奖励信号做RL,而要训一个Reward Model?
评测指标追问
Badcase分析
看过badcase吗?你觉得还有哪些地方可以进一步优化?
(考察:数据与评测目标对齐、通用数据配比、answer质量重写)
DPO数据构建细节
DPO数据是自己构建的吗?怎么做的?
有没有考虑过用其他RL方式?为什么选DPO而不是RLHF?
二、Agent概念理解
Agent和LLM的区别是什么?怎么定义一个Agent?
如果让你做Agent能力的评测,你觉得哪些维度比较重要?
除了人工判断,怎么设计自动化评估方案?
三、Skills vs System Prompt
Skills和System Prompt的区别是什么?
如果把Skills内容全部展开,它是不是就等于一个很长的System Prompt?
四、Agentic RL训练数据设计(重点,答得不好)
如果让你做Agent方向的后训练,SFT数据怎么设计?RL数据怎么设计?
SFT做到什么程度可以开始做RL?
追问(答得卡住):Function Call这类偏封闭式的任务,入参/格式都有标准答案,为什么不直接用rule-based奖励信号做RL,而要训一个Reward Model?
全部评论
相关推荐
04-11 11:40
南京晓庄学院 大数据开发工程师 点赞 评论 收藏
分享
点赞 评论 收藏
分享
04-14 15:30
东北大学秦皇岛校区 数据分析师 点赞 评论 收藏
分享
查看7道真题和解析