打卡:今天学习强化学习。
- actor-critc:策略学习和价值学习相结合
- A2C:添加baseline,降低方差,使得采样和均值之间误差不会太大。
- importance sampling:通过另一个分布(已知表达式的分布)来采样,求某一分布(该分布表达式未知,如神经网络)的期望。
- off-polcy actor-critic:通过importance sampling 将on-policy 转化为off-policy。
- actor-critc:策略学习和价值学习相结合
- A2C:添加baseline,降低方差,使得采样和均值之间误差不会太大。
- importance sampling:通过另一个分布(已知表达式的分布)来采样,求某一分布(该分布表达式未知,如神经网络)的期望。
- off-polcy actor-critic:通过importance sampling 将on-policy 转化为off-policy。
2024-03-15
在牛客打卡2天,今天也很努力鸭!
全部评论
相关推荐
05-25 00:38
门头沟学院 全栈开发 校招传奇耐挂王:主包,我也双非本,你12月份第一段实习的时候,我已经从得物实习下来了。秋招春招投了个遍都0offer。感觉猪包这么晚启动都还挺顺利的,悠悠苍天,何薄于我


点赞 评论 收藏
分享