字节朝夕光年游戏部门:强化学习算法工程师 投了了字节,还在准备就收到了面试邀约,然后就挂了 T_T,进大厂还是得好好准备一下 面试问题: 1.自我介绍 2.项目细节 3.项目中智能体如何感知环境 4.DDPG算法细节以及一些关键的伪代码 5.DDPG改进算法 6.Soft Actor-Critic算法? Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机...