#牛客在线求职答疑中心#笔试题代码实现scaled dot-product at_牛客网

牛客476174840号

03-29 18:43 威海中加国际工商学院电子信息类

关注

#牛客在线求职答疑中心#笔试题代码实现scaled dot-product attention，实现一个33B参数的GPT模

全部评论

推荐最新楼层

带#牛客在线求职答疑中心#提问都会召唤我

你好，很高兴为你解答。首先，scaled dot-product attention是一种注意力机制，通常用于Transformer模型中。它的主要作用是计算query和key之间的相似度，然后根据相似度对value进行加权求和，从而得到最终的注意力输出。实现scaled dot-product attention的步骤如下： 1. 首先，将query和key进行线性变换，得到q和k。 2. 计算q和k之间的点积，得到attention score。 3. 将attention score进行缩放，得到scaled attention score。 4. 计算value的权重，权重等于scaled attention score除以scaled attention score的平方根。 5. 对value进行加权求和，得到最终的注意力输出。接下来，实现一个33B参数的GPT模型。GPT模型是一种基于Transformer的生成模型，通常用于自然语言生成任务。实现GPT模型的步骤如下： 1. 首先，定义模型参数，包括词表大小、隐藏层大小、注意力头数量等。 2. 初始化模型参数，可以使用Xavier初始化或者随机初始化。 3. 定义前向传播函数，实现Transformer编码器和解码器的计算。 4. 定义损失函数，通常使用交叉熵损失函数。 5. 定义优化器，例如Adam优化器。 6. 训练模型，使用训练数据对模型进行优化。 7. 生成文本，使用训练好的模型生成自然语言文本。以上就是实现scaled dot-product attention和33B参数的GPT模型的步骤。希望对你有所帮助！

点赞回复

发布于 03-29 18:43 此内容由AI生成

04-03 15:05

西北农林科技大学计算机类

钉钉前端一面

#面试# #实习# #前端# 🕒 岗位/笔试时间:前端，4月3号下午两点电话面🤔 面试感受:太难绷了老规矩，上来面试官介绍加自己介绍。两道场景题一.场景:一个前端gpt网页     1.如何实现al文字不停冒出来的效果，如何和服务器进行通讯来提高效率     2.如果用户询问了几千次，列表特别长，如何优化渲染性能二.场景:多线程显示很多图片     1.怎么实现     2.浏览器如何利用多核CPU提升性能其他问题:dom事件机制Java和JavaScript的区别总结:问的很基础，全是场景题。题目很多都和计网，性能优化 和浏览器有关。比较关注后端语言，得熟练掌握一门。

阿里巴巴一面171人在聊

点赞评论收藏

转发

04-17 22:29

西安电子科技大学计算机类

华为4/17第一题测试通过，提交为0。

C++ ,求指导！！！

投递华为等公司10个岗位

点赞评论收藏

转发

麻辣香锅lll

04-16 09:08

蚂蚁数据库测开

4月2号  晚上七点半，一面，细扒项目，PG和GP的一些基础知识，为什么想做测开？（因为找不到别的工作机会）            手撕三数之和，暴力破解，面试官看了半天说这样好像也没什么问题            最后问如果我去了之后想做什么，我说开发，然后终结了话题。没有感谢信，应该是一面挂。

点赞评论收藏

转发

牛客944815117号

03-31 15:36

C++

腾讯wxg一面面经

#软件开发2024笔面经# （1）为什么在国企不想干了？“技术追求”（PS：其实是钱少、不受待见、被边缘化）（2）拷打项目，国企项目非常垃圾，就这还是我美化的结果。问到并发量的时候我实在是编不下去了。（3）虚函数、虚表、虚指针解释一下，分别在哪个时间段创建的。（4）select、poll、epoll的区别解释一下，项目里面为什么用select不用别的？“并发量不大，没必要用poll和epoll”（PS：其实压根没有并发量，select都是我瞎编的）（5）内存池的基本原理解释一下。（6）左值引用和右值引用的区别解释一下，为什么需要右值？（7）智能指针的基本原理，引用计数是线程安全的吗？（是）智能指针是线程安全的吗？（不是，堆上对象未必做了线程安全包含）（8）多线程访问单例，你要怎么办？（答得不好，我说的thread_local，面试官不太满意）（9）stl::vector数据存在哪里？（堆）为什么不能在栈上？（栈空间连续，扩容的时候空间无法释放）（10）为什么栈比堆快？（没答上来，面试官提示了一下，跟虚拟内存计算相关）（11）unordered_map底层是什么？（哈希表）拷打哈希表（12）拷打内存管理、分页、分段等等。（13）C++入口函数是什么？（mian）main函数之前执行的是什么函数？（__init__函数）（14）时间差不多了，咱们写一道题目吧，这是公司规定，没办法，你方便共享屏幕吗？（PS：我还能不方便？）本来以为太这么说，题目会很简单，没想到题目又偏又难：LeetCode 907暴力解n3，我想到了一个优化的办法，n2，标准答案是单调栈。。n时间复杂度。。反问环节：贵公司的这个岗位的技术难点和业务成长点在于什么？面试官兴致勃勃地介绍起来，“我们是腾讯wxg最核心的部门”“我们都是技术大牛”之类的话。整体上看项目还是硬伤，手撕代码也不太行，单调栈这个没好好准备。许愿二面。

腾讯一面1109人在聊软件开发2024笔面经

点赞评论收藏

转发

04-10 10:41

中山大学计算机类

wxg二面面经

感觉不是很满意一直在问我有没有什么不是偏底层和算法的项目，想让我讲点软件开发的项目但是我确实没有😇感觉不是很满意，多半得挂了

点赞评论收藏

转发

点赞收藏评论

招聘动态

滴滴

2025届秋招储备实习生招聘

联想

24届应届+25届实习

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

608474次浏览 10393人参与

# 秋招开了，你想投哪些公司呢 #

112077次浏览 3213人参与

# 我想象的工作vs实际工作 #

86416次浏览 1483人参与

# 五一之后，实习真的很难找吗？ #

8584次浏览 56人参与

# 浅聊一下我实习的辛苦费 #

77151次浏览 719人参与

# 租房前辈的忠告 #

27810次浏览 1951人参与

# 简历中的项目经历要怎么写 #

413074次浏览 6925人参与

# 华为开奖那些事 #

684042次浏览 5913人参与

# 我的成功项目解析 #

78559次浏览 2307人参与

# 春招你拿到offer了吗 #

350561次浏览 5207人参与

# 机械人怎么评价今年的华为 #

63685次浏览 508人参与

# 我的上岸简历长这样 #

153583次浏览 3078人参与

# 华为工作体验 #

19572次浏览 157人参与

# 我发现了面试通关密码 #

315099次浏览 6053人参与

# 你的简历改到第几版了 #

290134次浏览 4421人参与

# 第一次面试 #

45118次浏览 701人参与

# 晒一晒我的offer #

3151119次浏览 52610人参与

# 毕业租房也有小确幸 #

23987次浏览 1387人参与

# 海康威视求职进展汇总 #

87329次浏览 1059人参与

# 你已经投递多少份简历了 #

278664次浏览 4240人参与

牛客网
牛客企业服务