为什么 大规模深度CTR预估中Adam与Adagrad怎么选择,为什么对稀疏离散特征使用Adagrad, 而对连续特征(Dense)使用Adam?楼主有答案吗
点赞 评论

相关推荐

点赞 评论 收藏
转发
头像
03-18 09:09
Java
点赞 评论 收藏
转发
牛客网
牛客企业服务