预测未来 掌握了action的枚举list,掌握了各个action对应真实reward后, 在一个state选择一个action,获得reward后会跳转到下一个state, 循环上一句话,就会得到一整条决策树。 决策树就是我们的命运线,我们在当时的决策决定了事情后续的走向。 性格决定命运就是这个意思。性格的参数权重会决定action选择。 你有回顾过自己action选择的问题并做不同尝试吗?还是每次都在同一个state做相同的action获得相同的reward,看起来是个活人但是和机器人没区别? 为什么巴菲特和你的action选择不一样,差异是什么?同一个state你们分别会做什么action?你有尝试过他的action吗?他的action是最优解吗?你有没有试试找到更优的action?为什么不试试你身边最优秀那个人的action选择?为什么不试试你能遇到的最厉害的人的action选择?为什么不试试历史上最厉害的人的action选择?
点赞

相关推荐

找工作勤劳小蜜蜂:自我描述部分太差,完全看不出想从事什么行业什么岗位,也看不出想在哪个地区发展,这样 会让HR很犹豫,从而把你简历否决掉。现在企业都很注重员工稳定性和专注性,特别对于热爱本行业的员工。 你实习的工作又太传统的it开发(老旧),这部分公司已经趋于被淘汰,新兴的互联网服务业,比如物流,电商,新传媒,游戏开发和传统的It开发有天然区别。不是说传统It开发不行,而是就业岗位太少,基本趋于饱和,很多老骨头还能坚持,不需要新血液。 工作区域(比如长三角,珠三角,成渝)等也是HR考虑的因素之一,也是要你有个坚定的决心。否则去几天,人跑了,HR会被用人单位骂死。
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务