设备故障预测程序_牛客题霸

在一套对象存储集群中，运维同学希望根据设备运行日志，提前判断设备是否有故障风险，从而把数据在故障前迁移到其他节点。每条日志包含以下字段：设备ID、写入次数、读取次数、平均写入延迟(ms)、平均读取延迟(ms)、使用年限(年)、设备状态(0 正常1 故障)。请你实现一个设备故障预测程序，基于训练数据学习一个逻辑回归模型，并对给定的待预测设备输出是否故障的判定结果。数据清洗规则 - 缺失值填充：数值字段出现字符串 NaN 时，用该字段在训练集中“有效数值”的均值进行填充。有效数值的含义见“异常值处理”。 - 异常值处理：若出现以下越界值，则视为异常，用该字段在训练集“有效数值”的中位数替换。 1.写入读取次数：小于 0 2.平均写入读取延迟：小于 0 或大于 1000 3.使用年限：小于 0 或大于 20 - 说明：计算均值中位数时，只统计训练集中“有效数值”（即不含 NaN，且不越界）。若某字段在训练集没有任何有效数值，则该字段的均值与中位数都按 0 处理。 - 标签缺失：训练样本若无状态字段或无法解析为 01，丢弃该行，不参与训练，也不参与统计均值中位数。模型与训练 - 模型：二分类逻辑回归，带偏置项 w0。 - 训练方法：批量梯度下降（Batch GD），每次迭代用全部训练样本，学习率 0.01，迭代 100 次，初始权重全 0。 - 概率： P(y=1) = 其中 z = w0 + - 判定阈值：若 P(y=1) ≥ 0.5 则输出 1，否则输出 0。

输入描述:

第一行：N（2 ≤ N ≤ 100）接下来 N 行：每行一个训练样本device_id,writes,reads,avg_write_ms,avg_read_ms,years,status第 N+1 行：M（1 ≤ M ≤ 10）接下来 M 行：每行一个待预测样本（无状态）  device_id,writes,reads,avg_write_ms,avg_read_ms,years

输出描述:

共 M 行，每行输出一个整数 0 或 1，对应各待预测设备是否判定为故障。

示例1

输入

12
n1,50,25,5,2,1,0
n2,55,27,5.5,2.5,1.2,0
n3,60,30,6,3,1.5,0
n4,65,32,6.5,3.2,1.8,0
n5,70,35,7,3.5,2,0
n6,75,37,7.5,3.8,2.2,0
n7,80,40,8,4,2.5,0
n8,85,42,8.5,4.2,2.7,0
n9,90,45,9,4.5,3,0
n10,95,47,9.5,4.8,3.2,0
p1,400,200,20,10,6,1
p2,500,250,22,11,8,1
2
q1,88,44,8.8,4.3,2.9
q2,480,240,21.5,10.8,7.5

输出

0
1

说明

训练集中负类远多于正类，模型学到明显负偏置；但正类样本特征显著更大，使对应权重为正。
q1落在负类量级附近，P<0.5 → 0；q2与正类量级接近，P≥0.5 → 1。

备注:

本题由牛友@Charles 整理上传