首页 > 试题广场 >

对下面的损失函数 img src="https:up

[问答题]

对下面的损失函数

1) 请描述损失函数第2项别名和作用，并再列举一个第2项的其他形式。并说明两者的区别

2) 请根据题目求解参数theta的迭代优化公式，写出求解过程。

3）假如现在采用输入一个样本，更新一次参数的方式，参数更新采用theta＝theta＋alpha＊delta（theta）的形式。请问你能想到什么样的加速收敛的方式。

橙子可以吃头像

橙子可以吃

（1）L2正则项，可以降低过拟合；L1正则项，为参数的绝对值，L2正则项为参数的平方和，二者均能降低过拟合，L1更易获得稀疏解。

（2）θi=θi - α(αJ(θ)/αθ)，迭代更新θ，使损失函数最小，此时θ为最优

（3）随机梯度下降法，SGD

编辑于 2020-09-09 15:17:54 回复(0)

牛客258995545号头像

牛客258995545号

1）Ridge 正规化

发表于 2020-09-09 06:41:31 回复(0)

shanoy头像

shanoy

加速收敛方式：适当增大learning rate（过大会导致震荡），或者采用动态学习率（Momentum，Adagrad，Adam）；多次训练选取不同的初始值，不同的初始值能够有机会学到不同的局部最优，从而选取最优的一个解；对样本进行归一化，特征值的范围差异太大也会影响收敛的速度

发表于 2020-08-21 15:18:51 回复(0)

gerogegao头像

gerogegao

1.第二项别名叫做L2正则化，第二项还可以使用L1正则化。 $\lambda\sum_{i=1}^n|\theta|$

L1和L2的区别在于L1求的是参数的绝对值，和L2范数求的是平方和，L1能够起到稀疏化和提取特征的作用

而L2能够防止过拟合。

2.对于 $\theta$ 求导，有

$\frac{\partial J(\theta)}{\theta_j}=\frac{1}{m}[\sum_{i=1}^n(h_{\theta}(x_i)-y_i)x_j+\lambda\sum_{j=1}^n\theta_j]$

$\alpha$ 指学习率。

3.SGD。

编辑于 2018-08-02 20:14:13 回复(0)

一碗阳光头像

一碗阳光

1.别名为L2范式，作用为防止模型过拟合，另一种形式为均方差形式，两者的

发表于 2017-08-22 15:09:20 回复(0)

提交观点

问题信息

2017 算法工程师滴滴

上传者：小小

难度：

5条回答 32收藏 837浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K2座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号