4.28 字节 AI数据技术一面

一、项目深挖(医疗大模型训练)
评测指标追问

Badcase分析

看过badcase吗?你觉得还有哪些地方可以进一步优化?
(考察:数据与评测目标对齐、通用数据配比、answer质量重写)

DPO数据构建细节

DPO数据是自己构建的吗?怎么做的?
有没有考虑过用其他RL方式?为什么选DPO而不是RLHF?

二、Agent概念理解

Agent和LLM的区别是什么?怎么定义一个Agent?
如果让你做Agent能力的评测,你觉得哪些维度比较重要?
除了人工判断,怎么设计自动化评估方案?

三、Skills vs System Prompt

Skills和System Prompt的区别是什么?
如果把Skills内容全部展开,它是不是就等于一个很长的System Prompt?

四、Agentic RL训练数据设计(重点,答得不好)

如果让你做Agent方向的后训练,SFT数据怎么设计?RL数据怎么设计?
SFT做到什么程度可以开始做RL?
追问(答得卡住):Function Call这类偏封闭式的任务,入参/格式都有标准答案,为什么不直接用rule-based奖励信号做RL,而要训一个Reward Model?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务