一次电话面记录（蚂蚁金服）

蚂蚁金服，部门应该是做底层算法优化的，问的问题大都希望你从优化的角度回答，非正式面试，通过老师认识约谈那种，所以问题仅供参考。

面经：

deep learning相关

1)overfitting，如何防止：

batchnormalize和dropout,正则化如L1正则化可以稀疏参数防止过拟合，L2正则化通过求得更小参数来防止过拟合。

2）Cross entropy loss交叉熵损失与均方差损失（Mean Squared Error Loss）的差别（从优化角度不知道怎么讲诶）

均方差损失（Mean Squared Error Loss）均方差损失假设了误差服从高斯分布，在分类任务下这个假设没办法被满足，因此效果会很差；而交叉熵损失不需要满足这样的假设，适合分类任务。

3）Gradient descent的方向和大小如何确定

通常是最小化目标函数，所以梯度为正时减去梯度。即梯度的负方向加在网络参数上。取值大小取决于数据样本，可以多取一些值，从大到小，分别运行算法，看看迭代效果，如果损失函数在变小，说明取值有效，否则要增大步长。步长太大，会导致迭代过快，甚至有可能错过最优解。步长太小，迭代速度太慢，很长时间算法都不能结束。所以算法的步长需要多次运行后才能得到一个较为优的值（这个我不太确定）。

4）Adam优化器是怎么工作的？

可以看做是RMSProp+Momentum

具体说来，就是它使用了一个梯度平方的滑动平均（同RMSProp）

然后使用的是平滑版的梯度m，而不是原始梯度dx，积攒历史梯度（同Momentum）。

其次，相比于缺***因子导致二阶矩估计可能在训练初期具有很高偏置的RMSProp，Adam包括偏置修正，修正从原点初始化的一阶矩（动量项）和（非中心的）二阶矩估计。

machine learning相关

1) GMM-HMM GMM如何确定参数：EM算法，解释E步，M步（想了解的童鞋可以上网查一下两步的几个公式）;

HMM中的前向算法后向算法alpha,beta意义。

Deep learning和machine learning的差别（从优化角度）

Deep learning用较多的神经元和深层的网络大大加强了对非线性问题的表达性，需要数据量大，可解释性差，比较暴力。Machine learning在设置归纳偏好后根据统计计算逐步得到确定结果（我自己瞎说的）。

在网上看到的一些：机器学习的主要问题在于寻找合适的模型，深度学习的主要问题在于寻找合适的参数。机器学习对应的数据集较小，深度学习对应的数据集较大。

Matrix正定矩阵如何判断

判定定理1:对称阵A为正定的充分必要条件是:A的特征值全为正。（我回答出了这个）

判定定理2:对称阵A为正定的充分必要条件是:A的各阶顺序主子式都为正。

判定定理3:任意阵A为正定的充分必要条件是:A合同于单位阵。

对大数定理的理解

在一个随机事件中，随着试验次数的增加，事件发生的频率趋于一个稳定值（不知道为什么没有得到肯定的回馈，可能没有理解深）

reinforcement learning知道哪些

佑我接下来一个offer吧

#面经##蚂蚁集团##实习##算法工程师#

全部评论

推荐最新楼层

mars.Xyr

门头沟学院算法工程师

2. 从优化角度来讲在分类任务上使用交叉熵而非均方误差的原因主要是：分类任务上常用的激活函数是sigmoid，如果使用均方误差的话，在使用梯度下降算法更新时，权值w的偏导会含有sigmoid函数导数项(在输出接近0和1时会非常小)，导致训练阶段学习速度会变得很慢，而如果用交叉熵的话，权值w的偏导时不含sigmoid函数的导数项的(可以自己推导一下)，所以不会出现这个问题。所以在分类任务上，我们一般使用交叉熵。😊

6 回复分享

发布于 2020-04-10 22:31

lgddddddd

上海交通大学

tql

点赞回复分享

发布于 2020-04-10 20:49