通用性 Attention is all you need原文是处理nlp问题,但几乎所有人都意识到attention可以尝试处理包括nlp,cv,vrp在内的几乎所有方向的问题 。Attention机制本质是一种通用思想,rl理念同样是一种哲学理念。 基于rl衍伸出的决策机制,同样具有不局限行业和领域的特性,读者能够看到我在上面的文字中从未提出哪些行业的数据,但是只要把过程捋清楚并且训练后在自己的行业简单测一测,读者自然能知道这种决策机制有多么强大。rl的决策机制具体对各个行业有多大的增幅,只能由各个行业的人学会后去测试了。在这里一点上我也很无奈,因为我不能把自己训练好的网络复制一百份分享给各个公司和用户,只要脑机接口的问题没有解决,目前只能在各个行业和各个公司人肉地推,这也是写这份文档的初衷。 对行业的具体收益增幅数值,我自己的推测是30%左右,不包含错过就不再有的机会成本。遗憾的是,即便行业的机会是无限的,个人的机会也是有限的,很多机会,错过之后一辈子不会再有,因此错过的机会成本可能比那30%的纸面收益更重要。 10年前的互联网时代,有的互联网公司的领导层和员工相信自己公司的理念和方法论能够通杀所有行业,因此对其他行业并没有足够尊重。包括阿里和字节在内的巨头公司,都没有在其他领域取得成功。rl是一种思想和哲学理念,它的各处细节和公式可以转变成方法论,但是它自己并不是。它的使用也完全是根据state变化而变化的,这些只能由读者在使用时慢慢体会。 关于通用性的另一个问题:阿法狗可以击败人类最强的棋手,那它真的理解围棋的规则吗? 仔细思考这个问题。 实际上,这个问题不重要。阿法狗知道在当前state下不同位置的胜率分布(reward大小),就足够了。至于围棋规则到底是什么样的,不重要(从数学的角度,围棋规则是包含在reward计算公式中的)。你说这样好不好,也不重要,好不好用比较重要。现实就是它很好用。围棋的宇宙流,均衡流,求道流等,都打不过简单粗暴的reward测算流。 衍伸公式:我不觉得xxx在xxx领域的能力超过了柯洁在围棋领域的能力,那么打不过经过rl训练的读者也是正常的。 可以注意到reward测算流和传统互联网公司强行推广自家价值观/方法论的区别。action完全是根据当前state下的reward大小来做概率映射,而非按照固定的方法论按图索骥。犯了教条主义的错误会导致很多项目的失败。
点赞

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务