如何把BERT用到文本生成中

在知乎上提了问题没有人理,来牛客看看有没有大佬可以帮助我。最近在尝试把BERT模型放入seq2seq中,但是效果不好,不怎么收敛。我是直接把GRU encoder换成了BERT,然后decoder依旧是GRU,优化方式是ADAM,但是loss下降不下去,不管怎么调整学习率都没什么用。想问问大家这是为啥,是BERT跟RNN不兼容吗 。感觉换一个强大的预训练过的encoder不应该更好吗?我的数据量并不大,就8万左右。如果不能这样使用BERT,那有啥办法可以把BERT用到seq2seq任务中吗。谢谢各位大佬!!!

#机器学习##深度学习##人工智能#
全部评论
有一种思路,利用bert的next sentence,把后句mask成自回归,用前句生成后句
1 回复 分享
发布于 2019-11-06 11:52
BERT模型直接拿来当作编码部分?
点赞 回复 分享
发布于 2019-10-21 22:08
Bert 是通过DAE方式来预训练的,其学习到的是词的上下文表征信息,而学习不到这种词与词之间的组合信息。 这些都需要看你 Decoder 的部分,可以看看GPT 和 MASS 是怎么做的。  最新的 XLNet 可以解决你这个烦恼,问题是,***又要学,,学不动了啊。
点赞 回复 分享
发布于 2019-06-22 22:11
我也在做差不多的东西 BERT提取的特征是矩阵形式, 768 * 自己设的句子长度(包括CLS和SEP), 如果用transformer解码就用整个矩阵做decoder的输入(K和V),如果用GRU解码就用CLS对应的向量做GRU的hidden state 有好的想法可以交流一下
点赞 回复 分享
发布于 2019-06-09 23:27
不是说bert做文本生成是雷区么。。
点赞 回复 分享
发布于 2019-06-09 20:43
bert不适合文本生成
点赞 回复 分享
发布于 2019-06-09 16:11
编码器用gru,你的误差没办法传播到编码层的多头注意力层里,要不然就是你的嵌入层有问题
点赞 回复 分享
发布于 2019-06-09 14:11
用bert做的多标签文本分类
点赞 回复 分享
发布于 2019-06-09 13:32
用bert做word embedding
点赞 回复 分享
发布于 2019-06-09 13:31
我刚刚入门nlp,等大佬来解答
点赞 回复 分享
发布于 2019-06-09 13:25

相关推荐

不愿透露姓名的神秘牛友
05-26 15:37
1、这群人晚上 11 点发朋友圈:"凌晨 11 点,三环的灯还亮着。" 实际下班时间:19:30。2、什么是嘉豪呀?我最近在字节实习,没什么时间上网3、同龄人:学校社团、酒吧蹦迪;我:acm、字节/腾讯实习4、别人朋友圈发:“今天不想上课”;我朋友圈发:“今天的班就上到这里啦”,定位:字节跳动5、别人的朋友圈都是到处旅游的定位,我的朋友圈天天都是“字节定位”,还一定要是在【公司的健身房】里拍张照片,实际只练了10分钟,其中凹造型5分钟6、mentor布置任务的时候,别人都是:”好的收到“,我:”是不是要xxxx,xxxx这么做也可以吧,这个技术方案会不会更好些“7、别人书包里装的:王道408、轻薄本、四六级真题。我书包里面装的:显存24GB4090独显gpu(24小时开机运行,屏幕上贴着“字节/腾讯等贴纸”)、速效救心丸(代码报错用)、电棍(熬夜写代码困了用),就很……你们懂吧8、入职大厂第一件事:发朋友圈、发小红书,晒工牌,985计算机硕|字节实习生|可以接咨询|有偿改简历,9、别人的社交软件简介:25岁|男|希望遇见有趣的灵魂;嘉豪的社交软件简介:25岁|程序员|字节跳动工程师|一张佩戴工牌的自拍照大厂嘉豪标配:1. 挂胸前的工牌(地铁里只挂不收,怕你看不见 logo)2. 降噪耳机(不放音乐也戴着,避免别人跟自己说话)3. 印 logo 的电脑包(字节红 / 腾讯蓝 / 阿里橙 / 美团黄)4. 手表(最好显示心率,午饭后必发"步数已破 6,000")
布布永不言弃:可曾见过“我在未上市小厂实习,丢人了xxx”,然后接着说“这个小厂的创始人是张一鸣” 然后别人要是真不认识张一鸣 就直接急了
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
10
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务