小红正在开发一款大型语言模型的推理优化工具。为了能够准确预估模型在不同硬件任务下的耗时情况,她打算构建一个简单的线性回归模型。该模型通过三个关键特征:协议连接数、包转发率和内存占用百分比,来预测最终的资源消耗指标值。
为了提高模型的训练效率和稳定性,小红决定采用带有数据归一化处理的批量梯度下降法(Batch Gradient Descent, BGD)来优化模型参数。具体流程如下:
1. 特征归一化:对每一列特征分别进行 Min-Max 归一化。假设某列特征为 x,其最小值为 min,最大值为 max,则归一化后的值
。若该列的最大值与最小值相等,则该列所有归一化后的值直接设为 0。
2. 权重训练:初始化偏置项 w0 以及三个特征对应的权重 w1、w2、w3 为 0。随后进行 N 轮迭代,每轮迭代中小红会根据当前的权重计算所有样本的预测值,并以此计算梯度。梯度的计算方式为:第 k 个权重的梯度等于所有样本的“预测值与真实值之差”乘以“该样本第 k 个归一化特征”后的平均值(对于 w0,其对应的特征值恒为 1)。所有权重在每一轮结束时同时进行更新:
,其中
为学习率,g_k 为梯度。
3. 权重还原:训练完成后,需要将归一化空间下的权重还原回原始数据的量纲。特征权重还原公式为
(若 max = min,则还原权重为 0)。还原后的偏置项公式为:
。
2. 权重训练:初始化偏置项 w0 以及三个特征对应的权重 w1、w2、w3 为 0。随后进行 N 轮迭代,每轮迭代中小红会根据当前的权重计算所有样本的预测值,并以此计算梯度。梯度的计算方式为:第 k 个权重的梯度等于所有样本的“预测值与真实值之差”乘以“该样本第 k 个归一化特征”后的平均值(对于 w0,其对应的特征值恒为 1)。所有权重在每一轮结束时同时进行更新:
3. 权重还原:训练完成后,需要将归一化空间下的权重还原回原始数据的量纲。特征权重还原公式为
请你帮助小红完成这个训练过程,并输出还原后的最终参数。

