某智慧城市运营平台持续监测全市供水管网在连续 N=200 天内各区域的日总供水量(单位万吨,数值通常分布在 100.00 至 500.00 之间),数据已按日期先后排列。
因传感器故障,共有 M 处(M 的范围是 20 到 30)记录丢失,依次编号为 Gap_1, Gap_2, ..., Gap_M。
已知首日和末日的监测数据一定完整(即第 1 天和第 N 天不会出现丢失)。 你的目标是:对每一处丢失记录,利用其前后最近的连续真实数据段,构建二阶多项式岭回归模型来估算缺失值。
区间确定规则
假设某个丢失记录位于全局第 pos 天:
前方区间 [left_start, pos-1]:从 pos-1 向前(朝第 1 天方向)逐天检查,碰到的第一个丢失记录(Gap_1 到 Gap_M 中任何一个)所在天数的下一天即为 left_start。若一路到第 1 天都没有碰到其他丢失记录,则 left_start 为第 1 天。
后方区间 [pos+1, right_end]:从 pos+1 向后(朝第 N 天方向)逐天检查,碰到的第一个丢失记录所在天数的前一天即为 right_end。若一路到第 N 天都没有碰到其他丢失记录,则 right_end 为第 N 天。
模型构建
将上述前方区间与后方区间中所有真实记录汇总作为训练样本 (x, y),其中 x 为天序号(1, 2, ..., N),y 为对应供水量。
使用二阶多项式岭回归拟合模型:
回归系数通过以下矩阵公式求解:
各符号含义如下:
beta 是 3*1 列向量,包含待求系数 [beta_2, beta_1, beta_0]。
X 是 n*3 的设计矩阵(n 为训练样本数)。
对训练集中每个天序号 x_i,矩阵 X 的对应行为 [x_i^2, x_i, 1]。
y 是 n*1 列向量,存储训练集中各样本点的供水量。
X^T 为 X 的转置。
lambda 为正则化系数,本题统一取 lambda=0.1。
I 为 3*3 单位矩阵。
(.)^{-1} 表示矩阵求逆运算。
