1. 学习了C++中的字符串、string类:初始化,赋值,拼接,附加,输入。
2. 学习了C++的结构(体):结构体类型的定义,初始化
3. 读了Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets:本文首先发现:当数据集中存在大量非最优轨迹时,SOTA offlineRL算法难以显著的超过数据集中的平均return。本文认为这可能是因为当前的SOTA offlineRL算法总是贴近于数据集,而过度的贴近将导致策略模仿次优动作。本文的解决方式是提出一种采样方式使得策略仅被限制在好的数据中而不是数据集中的所有动作(均匀采样)。
2024-04-25
在牛客打卡10天,今天也很努力鸭!
全部评论
大佬是研究生吗?研究方向是离线强化学习?
点赞 回复 分享
发布于 2024-05-07 22:38 江苏

相关推荐

Twilight_m...:还是不够贴近现实,中关村那块60平房子200万怎么可能拿的下来,交个首付还差不多
点赞 评论 收藏
分享
牛客nb666号:看数据范围, -1e4~1e4, 用一个计数数组存一下, 再按个数让k减到0就行; 堆排不是O(n)的, 快速选择算法是O(n)但随机性较强
点赞 评论 收藏
分享
07-29 14:49
门头沟学院 Java
ResourceUt...:浙大✌️吉祥
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务