2019-11-17 05:09 已编辑腾讯_数据平台部_算法工程师

关注

ALBERT 已看paper

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Summary

在bert上做了一些parameter reduction使得bert更加轻量化。

Research Objective 作者的研究目标

present two parameter-reduction techniques

Problem Statement问题陈述，需要解决的问题是什么？

embedding的参数太多
层与层之间的参数共享

Method(s)作者解决问题的方法/算法是什么？是否基于前人的方法？

factorized embedding parameterization
把字典向量从 $O(V\times H)$ reduce 到 $O(V\times E + E\times H)$

cross-layer parameter sharing
曾与层之间参数共享
参数空间和DQE不同

sentence ordering objectives
sentence order prediction loss:
正样本正序，负样本前后交换

Evaluation作者如何评估自己的方法，实验的setup是什么样的，有没有问题或者可以借鉴的地方。

有一些结论：

The all-shared strategy hurts performance under both conditions
When sharing all cross-layer parameters, there is not need for models deeper than a 12-layer configuration.
Removing dropout 提升 MLM accuracy and a combination and dropout in Convolutional Neural Networks may have harmful results.

Conclusion作者给了哪些结论，哪些是strong conclusions, 哪些又是weak的conclusions?

可以做做看sparse attention and block attention，hard example mining

Notes(optional) 不符合此框架，但需要额外记录的笔记。

DQE

Reference

Training multi-billion parameter language models using model parallelism, 2019.
Backpropagation without storing activations.
Deep equilibrium models. In Neural Information Processing Systems (NeurIPS), 2019.
RoBERTa: A robustly optimized BERT pre- training approach. arXiv preprint arXiv:1907.11692, 2019.

全部评论

推荐最新楼层

内向的螺狮粉又熬夜了

06-11 10:56

北京航空航天大学电子信息类

TP-LINK软开后端技术二面

1.自我介绍2.手撕：给一个数组nums=[4 3 2 3 5 2 1]和整数k=4，问能否将nums分为k个等和的子数组，如[5] [4 1] [3 2] [3 2]，可以的话返回true，给2-3min思考，然后跟面试官交流一下思路之后在本地ide写代码有点紧张，一下子没想出来，说想到了分成两个的话可以用01背包，然后面试官提示这样的话可以多个背包，然后写了回溯，快写完的时候被叫停了，说知道我想干嘛了，然后指出了代码中一些小问题，就继续下面的了，感觉有点赶时间3.项目 4.反问总用时差不多40min，没有问到八股相关的，面试官感觉挺好的

TP-LINK二面46人在聊

查看1道真题和解析

点赞评论收藏

分享

屋顶的闪闪星光

06-11 12:22

读个美硕给软件技术人带来哪些改变？

小闪先是在沿海某985读了本科，然后去美国藤校读了硕士，回国找工作拿到了几个offer之后找我问建议。 他的经历蛮有意思的，我就约他语音聊了2个小时，于是有了这篇文章。 小闪去国外留学其实有部分原因是完成父辈的梦想，关于这件事我跟小闪讨论之后都认为，二三十年前中美之间的差距太大，西方经济、文化、价值观全面涌入，很容易让那个年代的人对美国仰望，再往后的留学可能就不是因为仰望而诞生，应该会更务实，比如，避开国内的卷。 虽然家里很早就为小闪策划了出国留学这个事，但高中时小闪学习挺不错的，自己也不想去国外，就留在国内读了本科。本科毕业之后本来打算保研，但调研之后发现自己这个跨学科专业在就...

牛客在线求职答疑中心我的求职思考

点赞评论收藏

分享

木皆是牛马

04-29 11:27

已编辑

OPPO_计算机视觉部_算法(实习员工)

这下真成二本咯

二本毕业生出列！ #25届暑期实习# #25秋招#  #你的秋招进行到哪一步了#  #找不到实习会影响秋招吗#  #找实习多的是你不知道的事#

25届暑期实习你的秋招进行到哪一步了

点赞评论收藏

分享

06-07 22:18

已编辑

前端工程师

被社会狠狠上了一课：一本计算机硕春招玩命拷打之旅

1 今年boss上投递的也有1000家，主要之前投的是前端，由于没有实习项目不过关，没有拿到满意的offer，零offer之后到了5月份，听同学建议开始投民办院校和研究所和运营商。具体的面试经验和经过和心路历程分享在了底下的图12 目前主要在想不知道是该继续卷前端进中小厂还是进研究所，毕竟研究所技术面相对简单，还是进国企的运营商亦或是直接进民办院校躺平。目前拿到的唯一offer截止6月7号，只有民办高校在福州某民办学院

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

1301465次浏览 18413人参与

# 晒一晒我的offer #

3998329次浏览 60169人参与

# 不去互联网可以去金融科技 #

45736次浏览 485人参与

# 和牛牛一起刷题打卡 #

40705次浏览 3268人参与

# 来聊聊你目前的求职进展 #

226989次浏览 2863人参与

# 2023届毁约公司名单 #

104666次浏览 466人参与

56876次浏览 817人参与

# 参加过提前批的机械人，你们还参加秋招么 #

16203次浏览 378人参与

# 你觉得今年秋招难吗 #

347801次浏览 6128人参与

# 谈薪时HR压价该怎么应对 #

43052次浏览 319人参与

# 如何确定求职岗位 #

157540次浏览 3003人参与

# 百度工作体验 #

30732次浏览 298人参与

# 如果可以选，你最想从事什么工作 #

217097次浏览 3351人参与

# 机械制造笔面经 #

7051次浏览 226人参与

# 软件开发薪资爆料 #

878705次浏览 11926人参与

# 滴！实习打卡 #

288184次浏览 4267人参与

# 学历对求职的影响 #

171148次浏览 1884人参与

# 实习好累，可以辞职全力准备秋招吗 #

7042次浏览 157人参与

# 硬件人的简历怎么写 #

84540次浏览 889人参与

# 非技术岗薪资爆料 #

50682次浏览 710人参与

# 我的成功项目解析 #

99941次浏览 2784人参与

# 机械只有转码才有出路吗？ #

9940次浏览 188人参与

牛客网
牛客企业服务