小红正在开发一款大型语言模型的推理优化工具。为了能够准确预估模型在不同硬件任务下的耗时情况,她打算构建一个简单的线性回归模型。该模型通过三个关键特征:协议连接数、包转发率和内存占用百分比,来预测最终的资源消耗指标值。 为了提高模型的训练效率和稳定性,小红决定采用带有数据归一化处理的批量梯度下降法(Batch Gradient Descent, BGD)来优化模型参数。具体流程如下: 1. 特征归一化:对每一列特征分别进行 Min-Max 归一化。假设某列特征为 x,其最小值为 min,最大值为 max,则归一化后的值 。若该列的最大值与最小值相等,则该列所有归一化后的值直接设为 0。 2. 权重训练:初始化偏置项 w0 以及三个特征对应的权重 w1、w2、w3 为 0。随后进行 N 轮迭代,每轮迭代中小红会根据当前的权重计算所有样本的预测值,并以此计算梯度。梯度的计算方式为:第 k 个权重的梯度等于所有样本的“预测值与真实值之差”乘以“该样本第 k 个归一化特征”后的平均值(对于 w0,其对应的特征值恒为 1)。所有权重在每一轮结束时同时进行更新:,其中 为学习率,g_k 为梯度。 3. 权重还原:训练完成后,需要将归一化空间下的权重还原回原始数据的量纲。特征权重还原公式为 (若 max = min,则还原权重为 0)。还原后的偏置项公式为:。 请你帮助小红完成这个训练过程,并输出还原后的最终参数。
输入描述:
第一行输入一个整数 m(1 ≤ m ≤ 10000),表示训练样本的数量。第二行输入一个整数 N(1 ≤ N ≤ 1000),表示梯度下降的迭代次数。第三行输入一个浮点数 (0.00 ≤ ≤ 1.00),表示学习率。接下来的 m 行,每行包含 4 个整数 x1, x2, x3, y。其中 x1、x2、x3 分别为三个特征值(0 ≤ x1 ≤ 1000, 0 ≤ x2 ≤ 10000, 0 ≤ x3 ≤ 100),y 为资源消耗的真实观测值(0 ≤ y ≤ 10000)。
输出描述:
输出一行,包含 4 个浮点数,分别代表还原后的 w0, w1, w2, w3。结果需使用银行家舍入法(即四舍六入五成双:保留位后一位小于 5 则舍去,大于 5 则进位,等于 5 且后面无其他非零数时看前一位,前一位为偶数则舍去,奇数则进位)保留 2 位小数,数值之间用空格隔开。
示例1
输入
2
1
0.10
10 100 5 50
20 300 15 100
说明
在本样例中,第一列特征的范围是 [10, 20],第二列是 [100, 300],第三列是 [5, 15]。
归一化后,第一个样本的特征为 (0, 0, 0),真实值为 50;第二个样本特征为 (1, 1, 1),真实值为 100。
初始权重均为 0,经过 1 轮迭代更新后,归一化权重 w0 为 7.5,w1, w2, w3 均为 5.0。
最后进行量纲还原,得到 w'1 = 0.5, w'2 = 0.025, w'3 = 0.5, w'0 = -2.5。
按照银行家舍入法,0.025 舍入两位小数为 0.02(因为 2 是偶数),故输出结果如上。
加载中...