小红的语言模型推理耗时预测_牛客题霸

小红正在开发一款大型语言模型的推理优化工具。为了能够准确预估模型在不同硬件任务下的耗时情况，她打算构建一个简单的线性回归模型。该模型通过三个关键特征：协议连接数、包转发率和内存占用百分比，来预测最终的资源消耗指标值。为了提高模型的训练效率和稳定性，小红决定采用带有数据归一化处理的批量梯度下降法（Batch Gradient Descent, BGD）来优化模型参数。具体流程如下： 1. 特征归一化：对每一列特征分别进行 Min-Max 归一化。假设某列特征为 x，其最小值为 min，最大值为 max，则归一化后的值。若该列的最大值与最小值相等，则该列所有归一化后的值直接设为 0。 2. 权重训练：初始化偏置项 w0 以及三个特征对应的权重 w1、w2、w3 为 0。随后进行 N 轮迭代，每轮迭代中小红会根据当前的权重计算所有样本的预测值，并以此计算梯度。梯度的计算方式为：第 k 个权重的梯度等于所有样本的“预测值与真实值之差”乘以“该样本第 k 个归一化特征”后的平均值（对于 w0，其对应的特征值恒为 1）。所有权重在每一轮结束时同时进行更新：，其中为学习率，g_k 为梯度。 3. 权重还原：训练完成后，需要将归一化空间下的权重还原回原始数据的量纲。特征权重还原公式为（若 max = min，则还原权重为 0）。还原后的偏置项公式为：。请你帮助小红完成这个训练过程，并输出还原后的最终参数。

输入描述:

第一行输入一个整数 m（1 ≤ m ≤ 10000），表示训练样本的数量。第二行输入一个整数 N（1 ≤ N ≤ 1000），表示梯度下降的迭代次数。第三行输入一个浮点数 （0.00 ≤ ≤ 1.00），表示学习率。接下来的 m 行，每行包含 4 个整数 x1, x2, x3, y。其中 x1、x2、x3 分别为三个特征值（0 ≤ x1 ≤ 1000, 0 ≤ x2 ≤ 10000, 0 ≤ x3 ≤ 100），y 为资源消耗的真实观测值（0 ≤ y ≤ 10000）。

输出描述:

输出一行，包含 4 个浮点数，分别代表还原后的 w0, w1, w2, w3。结果需使用银行家舍入法（即四舍六入五成双：保留位后一位小于 5 则舍去，大于 5 则进位，等于 5 且后面无其他非零数时看前一位，前一位为偶数则舍去，奇数则进位）保留 2 位小数，数值之间用空格隔开。

示例1

输入

2
1
0.10
10 100 5 50
20 300 15 100

输出

-2.50 0.50 0.02 0.50

说明


	在本样例中，第一列特征的范围是 [10, 20]，第二列是 [100, 300]，第三列是 [5, 15]。

	归一化后，第一个样本的特征为 (0, 0, 0)，真实值为 50；第二个样本特征为 (1, 1, 1)，真实值为 100。

	初始权重均为 0，经过 1 轮迭代更新后，归一化权重 w0 为 7.5，w1, w2, w3 均为 5.0。

	最后进行量纲还原，得到 w'1 = 0.5, w'2 = 0.025, w'3 = 0.5, w'0 = -2.5。

	按照银行家舍入法，0.025 舍入两位小数为 0.02（因为 2 是偶数），故输出结果如上。