海信一面面经

1.BN和LN的区别

2.什么情况下会发生梯度爆炸,如何解决(我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸。 梯度截断:首先设置梯度阈值:clip_gradient,在后向传播中求出各参数的梯度,不直接用梯度进行参数更新,求梯度的L2范数,然后比较范数||g||与clip_gradient的大小,如果范数大,求缩放因子clip_gradient/||g||,由缩放因子可以看出梯度越大,缩放因子越小,就可以很好的控制梯度的范围。最后将梯度乘以缩放因子得到最后需要的梯度。L1范数是指向量中各个元素绝对值之和,L2范数是指向量各元素的平方和然后求平方根。

2、可以通过添加正则项,避免梯度爆炸。正则化是通过对网络权重做正则限制过拟合,仔细看正则项在损失函数的形式:regularization 公式:

Loss=(y−WTx)2+α∣∣W∣∣2,其中,α 是指正则项系数,因此,如果发生梯度爆炸,权值的范数就会变的非常大,通过正则化项,可以部分限制梯度爆炸的发生。

  3、使用LSTM等自循环和门控制机制,避免梯度消失

  4、优化激活函数,譬如将sigmold改为relu,避免梯度消失)

  5、使用残差网络,避免梯度消失

3.网络收敛很慢可以用什么方法解决:

为了解决收敛速度慢的问题,我们可以从以下三个方面入手:

数据预处理:对于训练数据,可以尝试进行数据清洗、增强、扩充等操作,以提高数据的质量,减少噪声和不平衡现象,从而帮助模型更快地收敛。

优化模型:可以根据任务需求,选择合适的模型结构,避免过度复杂化,以减少计算量和训练时间。同时,可以考虑引入正则化、dropout等技术,以防止过拟合,提高模型的泛化能力。

改进训练代码实现:可以选择合适的优化算法,如随机梯度下降(SGD)、Adam等,并合理设置学习率和批量大小,以加快训练速度。同时,可以尝试使用并行化、分布式等方法,利用多GPU或者多机进行训练,以提高计算效率。
4.dropout为什么能起到正则化
5.用了什么优化器,Adam的原理是什么,Adam为什么可以自适应调节
6.数据量很大的话怎么构建图神经网络
目前状态是在等企业文化面,但面的时候感觉答的不是很好
全部评论
lz昨天电话面试的吗,现在状态是啥了?
点赞 回复 分享
发布于 2023-10-31 13:14 上海
再加点计算推导比得上字节了
点赞 回复 分享
发布于 2023-10-30 16:26 北京
。。。为什么问得这么八股
点赞 回复 分享
发布于 2023-10-30 12:35 天津

相关推荐

2025年初,新的一年开始,我给自己暗暗打气,发誓今年一定要拿到offer。如今2025年即将结束,找工作仍然没有任何水花,如今的失意和落魄和年初信心满满的姿态形成鲜明对比,想必也是因为被社会毒打,认清现实了吧。先分享一下贴主的背景,本人女,本科末流985文科专业,后来保送到华五,成绩一直是班级第一,有过国奖,实习有多段头部大厂经历。发贴的直接原因是今天华为面试挂,在反思中有很多复杂的想法,包括对自身能力的怀疑、对面试官所提问题的不解、对大环境的无奈。贴主是一个说话温柔、不喜欢咄咄逼人、有点社恐的人(基本上算是人们眼中对小女生的刻板印象,所以在历次群面中基本全挂(看到大家争抢当leader、t...
在找内推的小虾米:感觉这一段经历和我好像啊,前段时间面了很多车企,面试项目经历各种被拷打,大多数都没过一面,最有希望拿offer的一个终面挂了把我干破防了,打电话给爸妈哭了一个多小时才缓过来。我也开始否定自己,否定自己的一切,包括性格,能力,成长经历。。。最后面了深圳的某家公司,面试官人都挺友好,提的问题有深度但找到切入点 ,最后hr也按岗位最高的标准给的offer,我才发现自己并没有这么不堪,只是我的能力和经验和之前的岗位要求不那么符合而已。帖主一定不要灰心,招聘的窗口期还有很长很长,保持自信扬长避短,一定有企业能发现你的闪光点,祝好。
我的求职进度条
点赞 评论 收藏
分享
10-22 19:44
门头沟学院 Java
面了100年面试不知...:那我得去剪个头
点赞 评论 收藏
分享
评论
4
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务