0 点赞 评论 收藏
分享
家住朝阳区的陶先生:1.mask过程种替换unk和unknown词进行训练,预测时以unk和unknown词替代未登录词
2.在Attention后对output_layer进行了dense+dropout后再合并input_layer后执行layer_norm完成残差传递,为了避免网络退化;同时防止梯度消失,使得输出的变化更敏感

0 点赞 评论 收藏
分享

0 点赞 评论 收藏
分享

0 点赞 评论 收藏
分享
aNDROID菜鸡:被问到之前一样的问题,然后发现自己没去了解。。心里瞬间爆炸

0 点赞 评论 收藏
分享
2016-08-15 17:18
北京航空航天大学 算法工程师 0 点赞 评论 收藏
分享
创作者周榜
更多
关注他的用户也关注了: