中原银行算法工程师面试之解答

Bert的模型架构讲一下?

BERT模型的全称是:BidirectionalEncoder Representations from Transformer,也就是说,Transformer是组成BERT的核心模块,而Attention机制又是Transformer中最关键的部分,因此,利用Attention机制构建Transformer模块,在此基础上,用多层Transformer组装BERT模型。

Attention机制主要涉及到三个概念:Query、Key和Value。在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。该Attention机制也叫Self-Attention。

说一下机器学习和神经网络之间的模型之间的区别

1.数据依赖

随着数据量的增加,二者的表现有很大区别:

深度学习适合处理大数据,而数据量比较小的时候,用传统机器学习方法也许更合适。

2.硬件

深度学习十分地依赖于高端的硬件设施,深度学习都要求有GPU参与运算。相反,普通的机器学习对于硬件不太依赖。

3.特征工程

在机器学习方法中,几乎所有的特征都需要通过行业专家在确定,然后手工就特征进行编码。

然而深度学习算法试图自己从数据中学习特征。

4.模型大小

深度学习训练出来的模型参数可以达到几千亿,非常大。而机器学习模型很小,甚至有的算法本身就是模型,可执行文件很小。

5.运行时间

深度学习需要花大量的时间来训练,因为有太多的参数需要去学习。但是机器学习一般几秒钟最多几小时就可以训练好。

而运行时间机器学习更快,甚至几ms

6.可理解性

深度学习很多时候我们难以理解。至今无法用精准的数学模型来描述。

但是机器学习不一样,比如决策树算法,就可以明确地把规则给你列出来,每一个规则,每一个特征,你都可以理解。

如果模型过拟合了应该怎么处理?

以上答案均来自本人专栏:机器学习面试题汇总与解析(蒋豆芽面试题总结)

欢迎大家围观:https://blog.nowcoder.net/jiangwenbo

牛友面经解答 文章被收录于专栏

这个专栏专门用于为牛友解答面经,希望能帮助到大家。

全部评论

相关推荐

评论
14
56
分享

创作者周榜

更多
正在热议
更多
# 春招至今,你的战绩如何? #
10723次浏览 93人参与
# 你的实习产出是真实的还是包装的? #
1924次浏览 42人参与
# 巨人网络春招 #
11351次浏览 223人参与
# 军工所铁饭碗 vs 互联网高薪资,你会选谁 #
7594次浏览 43人参与
# 简历第一个项目做什么 #
31710次浏览 337人参与
# 重来一次,我还会选择这个专业吗 #
433481次浏览 3926人参与
# MiniMax求职进展汇总 #
24061次浏览 309人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
187155次浏览 1122人参与
# 牛客AI文生图 #
21442次浏览 238人参与
# 不考虑薪资和职业,你最想做什么工作呢? #
152390次浏览 888人参与
# 研究所笔面经互助 #
118933次浏览 577人参与
# 简历中的项目经历要怎么写? #
310259次浏览 4215人参与
# AI时代,哪些岗位最容易被淘汰 #
63661次浏览 824人参与
# 面试紧张时你会有什么表现? #
30507次浏览 188人参与
# 你今年的平均薪资是多少? #
213090次浏览 1039人参与
# 你怎么看待AI面试 #
180059次浏览 1256人参与
# 高学历就一定能找到好工作吗? #
64327次浏览 620人参与
# 你最满意的offer薪资是哪家公司? #
76497次浏览 374人参与
# 我的求职精神状态 #
448054次浏览 3129人参与
# 正在春招的你,也参与了去年秋招吗? #
363412次浏览 2638人参与
# 腾讯音乐求职进展汇总 #
160646次浏览 1112人参与
# 校招笔试 #
470952次浏览 2964人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务