1. 学习了设计模式:适配器模式。
2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
2024-04-12
在牛客打卡9天,今天也很努力鸭!
全部评论

相关推荐

01-01 23:23
复旦大学 Java
点赞 评论 收藏
分享
2025-12-22 15:04
江西农业大学 Web前端
SaviorSu:直接说下学期可以请假,一般情况学校允许我26届,大三就直接去实习了
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
2025-11-19 14:56
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务