首页 > 试题广场 >

对下面的损失函数 img src="https:up

[问答题]

对下面的损失函数

1) 请描述损失函数第2项别名和作用,并再列举一个第2项的其他形式。并说明两者的区别

2) 请根据题目求解参数theta的迭代优化公式,写出求解过程。

3)假如现在采用输入一个样本,更新一次参数的方式,参数更新采用theta=theta+alpha*delta(theta)的形式。请问你能想到什么样的加速收敛的方式。

(1)L2正则项,可以降低过拟合;L1正则项,为参数的绝对值,L2正则项为参数的平方和,二者均能降低过拟合,L1更易获得稀疏解。

(2)θi=θi - α(αJ(θ)/αθ),迭代更新θ,使损失函数最小,此时θ为最优
(3)随机梯度下降法,SGD
编辑于 2020-09-09 15:17:54 回复(0)
1)Ridge 正规化

发表于 2020-09-09 06:41:31 回复(0)
加速收敛方式:适当增大learning rate(过大会导致震荡),或者采用动态学习率(Momentum,Adagrad,Adam);多次训练选取不同的初始值,不同的初始值能够有机会学到不同的局部最优,从而选取最优的一个解;对样本进行归一化,特征值的范围差异太大也会影响收敛的速度
发表于 2020-08-21 15:18:51 回复(0)
1.第二项别名叫做L2正则化,第二项还可以使用L1正则化。
L1和L2的区别在于L1求的是参数的绝对值,和L2范数求的是平方和,L1能够起到稀疏化和提取特征的作用
而L2能够防止过拟合。

2.对于求导,有



指学习率。
3.SGD。

编辑于 2018-08-02 20:14:13 回复(0)
1.别名为L2范式,作用为防止模型过拟合,另一种形式为均方差形式,两者的
发表于 2017-08-22 15:09:20 回复(0)