L1 和 L2 正则化的区别?它们都能防止过拟合吗?写出Cross entropy的公式,并解释推导过程。(我先从KL散度的角度回答,面试官提示从最大似然的角度回答,并问是否与贝叶斯有关)解释dropout的作用,训练和测试阶段是否有区别,如何解决dropout预估偏高的问题?如何判断模型是否过拟合?(仅仅训练集loss低,测试集loss高不一定是过拟合,有没有其他判断方式?我从模型偏差和方差的角度回答)如何缓解过拟合?(我说了四五种方法,面试官继续追问有没有其他方法)概率题:计算骰子第一次扔到6的次数的期望。解释AUC的定义,它解决了什么问题,优缺点是什么,并说出工业界如何计算AUC。(特别...