1. 未登录词会通过词根词缀分割之后再转成embedding吧,在论文embedding部分有引用一个前人的工作 2. 残差网络是在transformer的(add&;layer norm)层吧,把经过attention前后的embedding做加法
点赞 评论
牛客网
牛客企业服务