请教一下各位牛油,为何激活函数需要具备单调性?

可微是为了保证单向传播梯度计算,单调性的目的是什么呢?看到有的论文说,是能够保证单层模型具有凸函数性能,不是很理解,求大佬们指点一下。

全部评论
从最简单的角度考虑,凸函数容易优化啊,不存在鞍点或者局部最优解这种问题,事实上在训练复杂模型的时候很容易跑到局部最优解,你考虑一个小坑挨着一个大坑,大坑的最低点是你想要的最优解,结果你一不小心掉到了小坑里,学习率和扰动不足以使你跳出小坑,那就很坑爹了😂激活函数的目的无非就是信息压缩和到概率空间的映射;单调性这块,我觉得应该就是出于凸优化的这个考虑,不在最简单的地方摔跟头
点赞 回复
分享
发布于 2019-03-21 23:35
因为激活函数基本都是对0-1跳变函数的近似,而0-1跳变函数本来就是单调的。我猜的。
点赞 回复
分享
发布于 2019-03-21 23:07
春招专场
校招火热招聘中
官网直投
你看的这个说法的来源可能是凸函数复合一个单增凸函数还是凸函数,但是激活函数本身不一定是凸的,所以我觉得存疑。
点赞 回复
分享
发布于 2019-03-21 23:09

相关推荐

头像
04-09 14:29
Java
点赞 评论 收藏
转发
点赞 3 评论
分享
牛客网
牛客企业服务