1. 学习了设计模式:适配器模式。
2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
2024-04-12
在牛客打卡9天,今天也很努力鸭!
全部评论

相关推荐

不愿透露姓名的神秘牛友
07-08 13:05
点赞 评论 收藏
分享
06-23 11:28
门头沟学院 Java
牛客91966197...:也有可能是点拒绝的时候自动弹的话术
点赞 评论 收藏
分享
05-22 09:23
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务