0723快手 Openday社区科学部算法工程师面经

目前状态：一面二面结束，等待结果中

本人由于简历上申明研究生方向为深度强化学习方向，因此面试官都问了较多关于强化学习的问题。除此之外就是关于机器学习的问题。

一面：

先介绍下参加的比赛吧，（巴拉巴拉 10分钟过去了）

（1）说一说基于值函数和基于策略梯度的RL算法的区别，什么时候用值函数RL算法合适，什么时候用基于策略梯度的合适？
（2）说说onpolicy和offpolicy的区别，并分别举几个代表性算法。
（3）写一写q函数的原始定义，并说说q函数的意义（这个问题我一面没回答出来，二面面试官又问了一遍，我才想起来，应该就是在当前状态下最优策略的未来累积回报值）。
（4）说一说Actor和critic算法吧。（我说完以后，面试官接着问）为什么需要critic网络呢，直接训练actor网络，输出最优动作有什么问题吗。
（5）你对GAN有了解是吧，写写GAN的损失函数吧，并解释一下G和D的训练过程。
（6）写写逻辑回归的损失函数，并且推导一下权重更新公式。（我写了以后，面试官接着问）如果不用梯度下降优化，还能怎么优化，我说了一些优化算法，他说牛顿法怎么具体更新参数的（我只知道利用了二阶梯度信息，很诚实的说具体推导不会）
（7）写写线性回归的损失函数，并推导权重更新公式。（我写完以后，面试官接着问）X*X(T)一定可逆吗？我说不是，他又问：如果有两个特征的取值一模一样，这个更新公式有问题吗？（我想了半天，觉得可能会过拟合到这两个特征上，就尝试引导面试官让我写加了正则化的权重更新公式。但是面试官说不考虑正则化，就问当前表达式有什么问题。我诚实的说不清楚。后来面试官引导我说想想刚刚我问你的问题，我才想起来这时候X*X(T)不可逆，因为经过矩阵初等变换后有两行或者两列可以消去）
（8）写一个合并K个排序链表的代码吧（本身题目不难，就是在自己定义的子函数中，我new了一个节点dummy，最后返回的是dummy->next,面试官提示说new的节点在返回之前最好把它delete掉。）

二面：

先做自我介绍

（1）写写RL中Q函数的表达式，并说说Q函数的意义。
（2）你在项目中用了DDPG，说说DDPG算法吧，（我说的时候可能表述的不够清楚，面试官让我画出几个网络之间的输入输出关系）。面试官接着问，这是offpolicy算法吧，你先解释下offpolicy，并说一下你在项目中怎么实现的。（我回答的核心是在π策略上加了噪声，形成采集样本策略）面试官说加的噪声少了会怎么样，加的大了会怎么样，有什么影响
（3）你对DQN了解吧，说说它对Q-learning的改进在哪些方面。我回答了三点

1）用神经网络去拟合值函数

2）使用replay-buffer存储过去的样本，消除训练样本的相关性。

3）单独设置TD目标网络，防止TD目标更新过于频繁

面试官又问问什么需要单独设置TD目标网络（我又把刚刚参数去相关性，防止TD目标频繁更新扯了一遍）。

（4）对DQN的改进算法了解多少（我回答了double DQN和dueling DQN，也只知道double DQN是为了解决Q函数过估计问题，后面具体的原理没答上来）
（5）机器学习方面：什么是生成模型，什么是判别模型，各举几个例子。说说HMM吧（我只知道它的模型以及解决的具体的三个问题，其他的没答上来）
（6）说说高斯混合模型以及参数估计过程。
（7）说说k-means算法和高斯混合模型的关系
（8）说说正则化技术，为什么L1正则化可以保持参数的稀疏性（我回答了两个角度，一个是画约束图，相信大家都会，另一个是L1正则化本质上是假设样本的先验分布服从拉普拉斯分布，画出拉普拉斯分布曲线解释），然后又推了一下为什么L1正则化本质上是假设样本服从拉普拉斯分布。
（9）说说矩阵分析里面特征值和特征向量的意义
（10）解释一下什么是凸函数（我回答了Hession矩阵半正定就行，）面试官接着问如果函数不可导怎么判断（懵逼）
（11）说说最优化方法有哪些，以及具体解释一下adam解决了什么问题（从动量以及学习因子自适应的角度解释了一下）
（12）编程：编写一个随机函数发生器，随机产生（1,2,3,4）四个数，当采集了无穷多数以后，产生的数概率服从（0.1,0.2,0.3,0.4）分布。（想了五分钟后，还是不会，当时想的每次怎么产生一个伪随机数，一直想不出来）
（13）编程，实现$y=\arqt{x}$

大致就这些，还有一两个问题忘了

#快手##面经##秋招##算法工程师#

0723快手 Openday社区科学部 算法工程师面经

全站热榜

0723快手 Openday社区科学部算法工程师面经