关注
通用性
Attention is all you need原文是处理nlp问题,但几乎所有人都意识到attention可以尝试处理包括nlp,cv,vrp在内的几乎所有方向的问题 。Attention机制本质是一种通用思想,rl理念同样是一种哲学理念。
基于rl衍伸出的决策机制,同样具有不局限行业和领域的特性,读者能够看到我在上面的文字中从未提出哪些行业的数据,但是只要把过程捋清楚并且训练后在自己的行业简单测一测,读者自然能知道这种决策机制有多么强大。rl的决策机制具体对各个行业有多大的增幅,只能由各个行业的人学会后去测试了。在这里一点上我也很无奈,因为我不能把自己训练好的网络复制一百份分享给各个公司和用户,只要脑机接口的问题没有解决,目前只能在各个行业和各个公司人肉地推,这也是写这份文档的初衷。
对行业的具体收益增幅数值,我自己的推测是30%左右,不包含错过就不再有的机会成本。遗憾的是,即便行业的机会是无限的,个人的机会也是有限的,很多机会,错过之后一辈子不会再有,因此错过的机会成本可能比那30%的纸面收益更重要。
10年前的互联网时代,有的互联网公司的领导层和员工相信自己公司的理念和方法论能够通杀所有行业,因此对其他行业并没有足够尊重。包括阿里和字节在内的巨头公司,都没有在其他领域取得成功。rl是一种思想和哲学理念,它的各处细节和公式可以转变成方法论,但是它自己并不是。它的使用也完全是根据state变化而变化的,这些只能由读者在使用时慢慢体会。
关于通用性的另一个问题:阿法狗可以击败人类最强的棋手,那它真的理解围棋的规则吗?
仔细思考这个问题。
实际上,这个问题不重要。阿法狗知道在当前state下不同位置的胜率分布(reward大小),就足够了。至于围棋规则到底是什么样的,不重要(从数学的角度,围棋规则是包含在reward计算公式中的)。你说这样好不好,也不重要,好不好用比较重要。现实就是它很好用。围棋的宇宙流,均衡流,求道流等,都打不过简单粗暴的reward测算流。
衍伸公式:我不觉得xxx在xxx领域的能力超过了柯洁在围棋领域的能力,那么打不过经过rl训练的读者也是正常的。
可以注意到reward测算流和传统互联网公司强行推广自家价值观/方法论的区别。action完全是根据当前state下的reward大小来做概率映射,而非按照固定的方法论按图索骥。犯了教条主义的错误会导致很多项目的失败。
点赞
相关推荐
查看10道真题和解析 点赞 评论 收藏
分享
坦荡的马来熊在人才库:点进来,差点眼瞎,不知道看哪 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 如何一边实习一边找下家? #
25102次浏览 177人参与
# 实习生如何通过转正 #
129459次浏览 1466人参与
# 巨人网络春招 #
9759次浏览 163人参与
# 跟HR说什么能被秒回? #
7855次浏览 149人参与
# 电信求职进展汇总 #
45106次浏览 207人参与
# 春招/暑实第一面是哪家? #
16969次浏览 217人参与
# MiniMax求职进展汇总 #
12298次浏览 219人参与
# 快手年终开大包 #
11730次浏览 97人参与
# 海信求职进展汇总 #
97852次浏览 419人参与
# 面试官最爱问的 AI 问题是...... #
13239次浏览 466人参与
# 银行笔面经互助 #
184613次浏览 1303人参与
# 把自己当AI,现在最消耗你token的问题是什么? #
2291次浏览 81人参与
# 秋招提前批,你开始投了吗 #
728887次浏览 8459人参与
# 设计人秋招体验最好的公司 #
85878次浏览 742人参与
# 你的嫡系AI是哪个? #
3327次浏览 92人参与
# 现在入门AI应该走哪些方向? #
3308次浏览 82人参与
# 你收到了哪些公司的笔试? #
15310次浏览 84人参与
# 迅雷笔试 #
5321次浏览 27人参与
# 机械人,说说你的烦心事 #
135370次浏览 1136人参与
# 你最近一次加班是什么时候? #
114502次浏览 561人参与
# 找工作中的小确幸 #
85080次浏览 463人参与
# 实习学到最有价值的工作习惯 #
64587次浏览 491人参与