1. 学习了C++中的字符串、string类:初始化,赋值,拼接,附加,输入。
2. 学习了C++的结构(体):结构体类型的定义,初始化
3. 读了Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets:本文首先发现:当数据集中存在大量非最优轨迹时,SOTA offlineRL算法难以显著的超过数据集中的平均return。本文认为这可能是因为当前的SOTA offlineRL算法总是贴近于数据集,而过度的贴近将导致策略模仿次优动作。本文的解决方式是提出一种采样方式使得策略仅被限制在好的数据中而不是数据集中的所有动作(均匀采样)。
2024-04-25
在牛客打卡10天,今天也很努力鸭!
全部评论
大佬是研究生吗?研究方向是离线强化学习?
点赞
送花
回复
分享
发布于 05-07 22:38 江苏

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务