如何把BERT用到文本生成中

在知乎上提了问题没有人理,来牛客看看有没有大佬可以帮助我。最近在尝试把BERT模型放入seq2seq中,但是效果不好,不怎么收敛。我是直接把GRU encoder换成了BERT,然后decoder依旧是GRU,优化方式是ADAM,但是loss下降不下去,不管怎么调整学习率都没什么用。想问问大家这是为啥,是BERT跟RNN不兼容吗 。感觉换一个强大的预训练过的encoder不应该更好吗?我的数据量并不大,就8万左右。如果不能这样使用BERT,那有啥办法可以把BERT用到seq2seq任务中吗。谢谢各位大佬!!!

#机器学习##深度学习##人工智能#
全部评论
有一种思路,利用bert的next sentence,把后句mask成自回归,用前句生成后句
1 回复
分享
发布于 2019-11-06 11:52
我刚刚入门nlp,等大佬来解答
点赞 回复
分享
发布于 2019-06-09 13:25
小红书
校招火热招聘中
官网直投
用bert做word embedding
点赞 回复
分享
发布于 2019-06-09 13:31
用bert做的多标签文本分类
点赞 回复
分享
发布于 2019-06-09 13:32
编码器用gru,你的误差没办法传播到编码层的多头注意力层里,要不然就是你的嵌入层有问题
点赞 回复
分享
发布于 2019-06-09 14:11
bert不适合文本生成
点赞 回复
分享
发布于 2019-06-09 16:11
不是说bert做文本生成是雷区么。。
点赞 回复
分享
发布于 2019-06-09 20:43
我也在做差不多的东西 BERT提取的特征是矩阵形式, 768 * 自己设的句子长度(包括CLS和SEP), 如果用transformer解码就用整个矩阵做decoder的输入(K和V),如果用GRU解码就用CLS对应的向量做GRU的hidden state 有好的想法可以交流一下
点赞 回复
分享
发布于 2019-06-09 23:27
Bert 是通过DAE方式来预训练的,其学习到的是词的上下文表征信息,而学习不到这种词与词之间的组合信息。 这些都需要看你 Decoder 的部分,可以看看GPT 和 MASS 是怎么做的。  最新的 XLNet 可以解决你这个烦恼,问题是,***又要学,,学不动了啊。
点赞 回复
分享
发布于 2019-06-22 22:11
BERT模型直接拿来当作编码部分?
点赞 回复
分享
发布于 2019-10-21 22:08

相关推荐

首先申明,这次面试官也很温柔,甚至感觉有点i呢,但面试过程略显尴尬,对st不做更多评价。面试时间55分钟,没有写代码。面了一趟下来很多很多问题都忘了,因为不熟…回忆版面试题如下:1. 不用开摄像头。2. 自我介绍(开始前提示是算法岗,别介绍太多开发工作)3. 开始介绍他们的工作内容4. 我反问:你跟一面面试官不是一个组吗? 面试官答:你已经一面过了吗?(开始反应过来莫名其妙被不明来历的一面拷打,面试内容可见前几天的面经)下面是正式面试过程问的问题太碎了太碎了,而且面试官也在想要怎么问^ - ^5. 项目经历问了很久,面试官是做多模态的,对llm不是很懂(我也不知道怎么进这个组的面试了)6. 问题集中在diffusionc model,stylegan,因为项目用了这个,他问为什么用stylegan,这么老的模型,问了些细节,真回忆不起来了。7. unet,resnet,clip都问了一下…主要是都没回答好。8. lora具体是怎么实现的,一般训哪些参数?9. p-tuning v1/2问了下细节10. llama的loss函数11. 用没用过DDP和deepspeed,有什么区别12. 多分类任务如果发现都分到了一个label,怎么排查原因,怎么解决,数据不均匀怎么办,不改数据集pytorch代码怎么改?13. 常见的位置编码知道哪些?图像怎么处理?超过长度怎么办?padding?截断?14. transformer结构讲一下15. 给你text讲一下转成embedding的流程16. clip的位置编码,好像问了怎么外推17. 有没有自己实现过dataload?…其他的想不起来了就这样吧自由提问1. 组里后面的工作计划,面试官好像也不太清楚2. 想篇research,组里有实习生纯research,有一半一半的3. 问我对这个工作感不感兴趣,因为不完全是llm4. 他们之前只用过llama2,又说现在换了个更好的,但是没想起来是啥,也只是微调了一下5. 没啥想问的,确实没很大兴趣。
点赞 评论 收藏
转发
点赞 10 评论
分享
牛客网
牛客企业服务