在一套对象存储集群中,运维同学希望根据设备运行日志,提前判断设备是否有故障风险,从而把数据在故障前迁移到其他节点。每条日志包含以下字段:设备ID、写入次数、读取次数、平均写入延迟(ms)、平均读取延迟(ms)、使用年限(年)、设备状态(0 正常1 故障)。 请你实现一个设备故障预测程序,基于训练数据学习一个逻辑回归模型,并对给定的待预测设备输出是否故障的判定结果。 数据清洗规则 - 缺失值填充:数值字段出现字符串 NaN 时,用该字段在训练集中“有效数值”的均值进行填充。有效数值的含义见“异常值处理”。 - 异常值处理:若出现以下越界值,则视为异常,用该字段在训练集“有效数值”的中位数替换。 1.写入读取次数:小于 0 2.平均写入读取延迟:小于 0 或 大于 1000 3.使用年限:小于 0 或 大于 20 - 说明:计算均值中位数时,只统计训练集中“有效数值”(即不含 NaN,且不越界)。若某字段在训练集没有任何有效数值,则该字段的均值与中位数都按 0 处理。 - 标签缺失:训练样本若无状态字段或无法解析为 01,丢弃该行,不参与训练,也不参与统计均值中位数。 模型与训练 - 模型:二分类逻辑回归,带偏置项 w0。 - 训练方法:批量梯度下降(Batch GD),每次迭代用全部训练样本,学习率 0.01,迭代 100 次,初始权重全 0。 - 概率: P(y=1) = 其中 z = w0 + - 判定阈值:若 P(y=1) ≥ 0.5 则输出 1,否则输出 0。
输入描述:
第一行:N(2 ≤ N ≤ 100)接下来 N 行:每行一个训练样本device_id,writes,reads,avg_write_ms,avg_read_ms,years,status第 N+1 行:M(1 ≤ M ≤ 10)接下来 M 行:每行一个待预测样本(无状态)  device_id,writes,reads,avg_write_ms,avg_read_ms,years


输出描述:
共 M 行,每行输出一个整数 0 或 1,对应各待预测设备是否判定为故障。
示例1

输入

12
n1,50,25,5,2,1,0
n2,55,27,5.5,2.5,1.2,0
n3,60,30,6,3,1.5,0
n4,65,32,6.5,3.2,1.8,0
n5,70,35,7,3.5,2,0
n6,75,37,7.5,3.8,2.2,0
n7,80,40,8,4,2.5,0
n8,85,42,8.5,4.2,2.7,0
n9,90,45,9,4.5,3,0
n10,95,47,9.5,4.8,3.2,0
p1,400,200,20,10,6,1
p2,500,250,22,11,8,1
2
q1,88,44,8.8,4.3,2.9
q2,480,240,21.5,10.8,7.5

输出

0
1

说明

训练集中负类远多于正类,模型学到明显负偏置;但正类样本特征显著更大,使对应权重为正。
q1落在负类量级附近,P<0.5 → 0;q2与正类量级接近,P≥0.5 → 1。


备注:
本题由牛友@Charles 整理上传
加载中...