一次电话面记录(蚂蚁金服)

蚂蚁金服,部门应该是做底层算法优化的,问的问题大都希望你从优化的角度回答,非正式面试,通过老师认识约谈那种,所以问题仅供参考。
面经:
  • deep learning相关

1)overfitting,如何防止:

batchnormalize和dropout,正则化如L1正则化可以稀疏参数防止过拟合,L2正则化通过求得更小参数来防止过拟合。

2)Cross entropy loss交叉熵损失与均方差损失(Mean Squared Error Loss)的差别(从优化角度不知道怎么讲诶)

均方差损失(Mean Squared Error Loss) 均方差损失假设了误差服从高斯分布,在分类任务下这个假设没办法被满足,因此效果会很差;而交叉熵损失不需要满足这样的假设,适合分类任务。

3)Gradient descent的方向和大小如何确定
通常是最小化目标函数,所以梯度为正时减去梯度。即梯度的负方向加在网络参数上。取值大小取决于数据样本,可以多取一些值,从大到小,分别运行算法,看看迭代效果,如果损失函数在变小,说明取值有效,否则要增大步长。步长太大,会导致迭代过快,甚至有可能错过最优解。步长太小,迭代速度太慢,很长时间算法都不能结束。所以算法的步长需要多次运行后才能得到一个较为优的值(这个我不太确定)。

4)Adam优化器是怎么工作的?

可以看做是RMSProp+Momentum

具体说来,就是它使用了一个梯度平方的滑动平均(同RMSProp)

然后使用的是平滑版的梯度m,而不是原始梯度dx,积攒历史梯度(同Momentum)。

其次,相比于缺***因子导致二阶矩估计可能在训练初期具有很高偏置的RMSProp,Adam包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计。

  • machine learning相关

1) GMM-HMM  GMM如何确定参数:EM算法,解释E步,M步(想了解的童鞋可以上网查一下两步的几个公式);

HMM中的前向算法后向算法alpha,beta意义。

  • Deep learning和machine learning的差别(从优化角度)

Deep learning用较多的神经元和深层的网络大大加强了对非线性问题的表达性,需要数据量大,可解释性差,比较暴力。Machine learning在设置归纳偏好后根据统计计算逐步得到确定结果(我自己瞎说的)。

在网上看到的一些:机器学习的主要问题在于寻找合适的模型,深度学习的主要问题在于寻找合适的参数。机器学习对应的数据集较小,深度学习对应的数据集较大。

  • Matrix正定矩阵如何判断

判定定理1:对称阵A为正定的充分必要条件是:A的特征值全为正。(我回答出了这个)

判定定理2:对称阵A为正定的充分必要条件是:A的各阶顺序主子式都为正。

判定定理3:任意阵A为正定的充分必要条件是:A合同于单位阵。

  • 对大数定理的理解

在一个随机事件中,随着试验次数的增加,事件发生的频率趋于一个稳定值(不知道为什么没有得到肯定的回馈,可能没有理解深)

  • reinforcement learning知道哪些
佑我接下来一个offer吧
#面经##蚂蚁集团##实习##算法工程师#
全部评论
2. 从优化角度来讲 在分类任务上使用交叉熵而非均方误差的原因主要是: 分类任务上常用的激活函数是sigmoid,如果使用均方误差的话,在使用梯度下降算法更新时,权值w的偏导会含有sigmoid函数导数项(在输出接近0和1时会非常小),导致训练阶段学习速度会变得很慢,而如果用交叉熵的话,权值w的偏导时不含sigmoid函数的导数项的(可以自己推导一下),所以不会出现这个问题。所以在分类任务上,我们一般使用交叉熵。😊
6 回复 分享
发布于 2020-04-10 22:31
tql
点赞 回复 分享
发布于 2020-04-10 20:49

相关推荐

评论
2
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务