小白努力找好工作

05-01 23:12 门头沟学院算法工程师发布于广东

关注

NLP算法面经16

10.17 蚂蚁 NLP （2+1）
1. 项目+实习
2. 强化学习的发展历程
3. 多头注意力书写
4. Lora的优势
5. 对话的掩码方式，其次是整体计算？
6. deepspeed zero123区别，有没有看过显存占用
7. grpo比dpo和ppo优势在哪？
8. MLA相比GQA的优势？
9. Agent的看法？
10. 跨模态处理的有效方法？
11. Qwen2-VL的框架介绍？
#大模型# #算法# #互联网大厂# 面经 #nlp# 蚂蚁 #阿里# #互联网大厂实习#

全部评论

推荐最新楼层

04-24 22:05

门头沟学院 Java

C++ 继承与多态

一、继承 (Inheritance)1. 基本概念继承是面向对象编程的重要特性，允许一个类（派生类/子类）基于另一个类（基类/父类）来构建，继承其属性和方法。2. 继承方式 class Base { // 基类成员 }; // 公有继承 class DerivedPublic : public Base { /*...*/ }; // 保护继承 class DerivedProtected : protected Base { /*...*/ }; // 私有继承 class DerivedPrivate : private Base { /*...*/ }; 3. 继承中的访...

点赞评论收藏

分享

05-02 08:32

北京邮电大学 C++

五一面试流程会推进吗

薯薯4.30号约的字节三面，面的时候面试官跟我说一面二面表现还可以，就是有点着急，所以才会有三面，三面的表现也还可以，但是一直没接到后续，想知道五一是不是不会推流程，还是寄了…

点赞评论收藏

分享

04-15 18:43

腾讯_HR(准入职员工)

腾讯云智研发内推-腾讯云智研发内推

真实体验是有超好的导师制定成长计划，全程辅导，各种腾讯内部学习网站和资料，上下班班车接送，然后基本一月团建一次。工作压力中等，百分之70情况能6点多下班，其他情况一般在8点左右。早投递，早筛选，早拿offer.！！！敲重点 用我的内推码投递后一定要评论区留言mark一下，以后好找我查进度，我秋招就是随便填别人的内推码，后来查进度都不知道找谁。惨痛的经历。#腾讯集团旗下｜云智研发公司25届春招补录&26届暑期实习开始！【公司简介】云智研发公司是腾讯旗下的子公司，公司坚持投资区域书，布局研发人才，聚集云和智慧产业基础产品和行业标准产昂的研发。推进云与产业互联网战略落地，助力产业数字化转型升...

腾讯云智研发公司福利 115人发布

点赞评论收藏

分享

05-01 19:10

中山大学算法工程师

为什么现在 LLM 很少使用 Dropout了？

翻遍各种大模型的实现，虽然结构上可能保留了 dropout 的实现，但是采样概率都设置为 0 了。唯一一个比较新的，还用 Dropout 的模型是 Meta 训练的 Galactica 模型。那为什么现在不用了呢？核心还是要弄清楚 Dropout 的使用场景。Dropout 之前在深度学习当中是一个特别好用的方法，可以防止过拟合，提高泛化。所以说，当模型较大，数据较少的时候，使用 Dropout 是比较合适的。现在大模型处在什么状态呢？✅预训练在预训练阶段，目前可能还是处于欠拟合的状态。之所以说可能，是基于目前公开的一些论文的出的结论。但是现在闭源的公司在采用大量数据合成的情况下，已经训练足够充分或者接近充分也说不定。以 llama 一系列论文为例，训练 llama 1 的时候，龙猫 Scaling law 里面提到 GPT3 是一个训练很不充分的模型。然后给出的数据配比的建议是，10B 的模型要采用 200B 的 token 来训练。但是 llama 1 采用了 7B 的模型，训练量 1T 的 token 发现性能依然有提升。而且预训练所有的语料一般只过一个 epoch，某些特定的领域可能过 2个 epoch，可以认为样本的重复率很低。所以，在数据足够多，多样性足够而且没有太多重复的情况下，大模型在预训练阶段仍然没有过拟合的风险。也就完全不需要采用 dropout。✅Dropout 就完全不需要了么？如果上面的条件不能满足，Dropout 还是有用武之地的。比如前面提到的 Galactica 模型。这个模型和其他大模型不太一样的地方是训练了 4.25 个 epoch，因为他们认为高质量的数据更重要一些，但是又没有那么多，所以就 repeat 数据了。在论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中，详细列举了数据 Repeat 对训练 LLM 的影响，并且证明了 Dropout 可以缓解数据重复带来的性能损失。在文章《Can LLMs learn from a single example?》中，也提到了在 SFT 的时候，少量的重复数据就会降低模型的性能。这也符合常理，SFT 的数据分布和预训练的通常是不太一样的，重复的数据会让模型拟合新的分布，从而忘掉旧的分布。文中同样也提到 Dropout 可以缓解数据重复带来的影响。所以 Dropout 在数据量较少，多样性不高，需要 repeat 的场景下，依然是一个减少过拟合的很方便的手段。比如现在已经有一些在 LoRA 微调的时候采用 Dropout 的研究了。#算法# #简历中的项目经历要怎么写# #算法岗面试# #互联网大厂招聘# #大模型# #大模型面经#

简历中的项目经历要怎么写

点赞评论收藏

分享

04-25 12:55

游卡_运营_HR

很多同学问还有没有春招，我说你现在直接投就行了，别问，把秋招投过的再投一遍，你进面率至少比秋招高50% 春招现在就是捡漏，不要畏手畏脚，再不投就毕业失去应届生身份了！入职游卡也有段时间了了，说说卡子的上班感受，毕竟如果我自己都感受不好，也没啥动力推荐大家来了大家可能更熟悉它的“三国杀”，在游戏圈里也算是个老牌子了。公司总部在上海闵行区虹桥国际商务广场，办公环境还不错，交通也挺方便。工作时间是早上9点到下午6点，双休，弹性工作制。福利方面，五险一金、补充医疗、定期体检这些都有，餐补是25块一天，社保公积金公司和个人各12%。整体来说，福利还算可以，公司里有不少海归硕士，薪资水平也相...

游卡公司福利 168人发布

点赞评论收藏

分享

评论

点赞

1

招聘动态

招商金科

25届+26届校园招聘

完美世界

25届春招&26届实习生招聘

腾娱互动

26届实习生火热招聘中

字节跳动

25届补录&26届实习

联想

2026届实习招聘

26届实习软件笔试必刷题单

26届实习求职交流群

字节跳动Tik Tok

26届实习招聘

26届投递链接合集

快手

25届补录+26届实习

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 商战，最累的是我们 #

4283次浏览 21人参与

# 租房找室友 #

20105次浏览 120人参与

# 职场新人生存指南 #

311301次浏览 6432人参与

# 你上一次加班是什么时候？ #

56626次浏览 387人参与

# 携程求职进展汇总 #

472020次浏览 3468人参与

# 深信服求职进展汇总 #

183545次浏览 1673人参与

# 学历or实习经历，哪个更重要 #

105359次浏览 726人参与

# 机械人选offer，最看重什么？ #

87217次浏览 539人参与

# 秋招想进国企该如何准备 #

53500次浏览 353人参与

# 哪些公司面试官让你印象深刻？ #

254984次浏览 2676人参与

# 2023届毁约公司名单 #

187430次浏览 935人参与

# 得物求职进展汇总 #

90223次浏览 791人参与

# 和牛牛一起刷题打卡 #

277362次浏览 6451人参与

# 大疆求职进展汇总 #

483354次浏览 3199人参与

# 查收我的offer竞争力报告 #

172678次浏览 1023人参与

# 如果可以，你希望哪个公司来捞你 #

74807次浏览 323人参与

# 产品面经 #

171198次浏览 1895人参与

# 通信硬件公司评价 #

123516次浏览 405人参与

# 实习要如何选择和准备？ #

65577次浏览 1061人参与

# 秋招最大的收获是什么？ #

26928次浏览 275人参与

牛客网
牛客企业服务