1. 学习了设计模式:适配器模式。
2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
 2. 读完论文Adaptive Policy Learning for Offline-to-Online Reinforcement Learning:本文考虑了在线数据和离线数据的差异,如何有效利用在线和离线数据。提出了一种适应策略学习框架。在线微调时,对离线数据采用悲观更新,对在线数据采用乐观更新。
2024-04-12
 在牛客打卡9天,今天也很努力鸭!
全部评论 
 相关推荐
 点赞 评论 收藏   
分享
  点赞 评论 收藏   
分享
  科大讯飞公司氛围 425人发布
科大讯飞公司氛围 425人发布 投递大连飞创信息技术有限公司等公司10个岗位
投递大连飞创信息技术有限公司等公司10个岗位