我也在做差不多的东西 BERT提取的特征是矩阵形式, 768 * 自己设的句子长度(包括CLS和SEP), 如果用transformer解码就用整个矩阵做decoder的输入(K和V),如果用GRU解码就用CLS对应的向量做GRU的hidden state 有好的想法可以交流一下
点赞 7

相关推荐

抽纸大侠:抱抱😘,首先你还有春招,然后就算这时候没上岸也没关系,大部分人都是这样,毕业了再找也成,最后工作只是生活的一小部分,找到工作也不是一个必须的事情。不要气馁不要焦虑你只是陷入了短暂的低谷,你也一直有退路
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务