关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
4 评论
相关推荐
02-27 11:57
门头沟学院 研发工程师 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# AI面会问哪些问题? #
24618次浏览 484人参与
# 中国电信笔试 #
31039次浏览 283人参与
# 厦门银行科技岗值不值得投 #
7452次浏览 186人参与
# 你的实习产出是真实的还是包装的? #
18712次浏览 329人参与
# 如果秋招能重来,我会____ #
96676次浏览 500人参与
# 春招至今,你的战绩如何? #
59592次浏览 537人参与
# 米连集团26产品管培生项目 #
12923次浏览 285人参与
# i人适合做什么工作 #
36894次浏览 124人参与
# 我是面试官,请用一句话让我破防 #
79496次浏览 219人参与
# 哪些公司真双非友好? #
69184次浏览 287人参与
# 找AI工作可以去哪些公司? #
7623次浏览 182人参与
# 从事AI岗需要掌握哪些技术栈? #
7591次浏览 241人参与
# 面试尴尬现场 #
220741次浏览 861人参与
# 投递几十家公司,到现在0offer,大家都一样吗 #
339842次浏览 2165人参与
# 五一之后,实习真的很难找吗? #
102793次浏览 584人参与
# 金三银四,你的春招进行到哪个阶段了? #
21518次浏览 277人参与
# 你做过最难的笔试是哪家公司 #
29869次浏览 185人参与
# 你小时候最想从事什么职业 #
159833次浏览 2072人参与
# 阿里笔试 #
176241次浏览 1302人参与
# 应届生第一份工资要多少合适 #
20471次浏览 84人参与
# 一张图晒出你司的标语 #
3790次浏览 71人参与
# 面试被问期望薪资时该如何回答 #
382452次浏览 2163人参与
