阶跃星辰agent算法面经分享 攒人品中
发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.项目拷打
2.针对具体业务场景,怎么训练agent调用工具,奖励函数怎么设计和优化的
3.怎么优化RL训练agent调用工具的数据,数据配比策略是怎样的
4.训练agent调用工具,以react框架为例,plan是什么,提示怎么设计,Obersevation是什么?Action是什么?每一块的输入输出都是什么?长什么样的?
5.介绍一下trl/verl架构,有哪些类,主要参数,针对具体任务出现的一些具体情况怎么调参
6.用verl训agent调用搜索工具为例,讲一下每一类大致怎么设计,什么作用
7.用过其他什么框架,讲了llama factory,swift.问了数据构造、格式
1.项目拷打
2.针对具体业务场景,怎么训练agent调用工具,奖励函数怎么设计和优化的
3.怎么优化RL训练agent调用工具的数据,数据配比策略是怎样的
4.训练agent调用工具,以react框架为例,plan是什么,提示怎么设计,Obersevation是什么?Action是什么?每一块的输入输出都是什么?长什么样的?
5.介绍一下trl/verl架构,有哪些类,主要参数,针对具体任务出现的一些具体情况怎么调参
6.用verl训agent调用搜索工具为例,讲一下每一类大致怎么设计,什么作用
7.用过其他什么框架,讲了llama factory,swift.问了数据构造、格式
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
相关推荐
03-26 19:48
东北大学 C++ 点赞 评论 收藏
分享
查看20道真题和解析 点赞 评论 收藏
分享