首页 > 试题广场 >

小王在用svm做一个垃圾邮件分类器,如果一个邮件为垃圾邮件,

[问答题]
小王在用svm做一个垃圾邮件分类器,如果一个邮件为垃圾邮件,则y=1,否则y=0.
(1)小王应该提取哪些特征?
(2)在小王的训练集合中,有99%都是非垃圾邮件,1%是垃圾邮件,如果最后训练的模型为对所有的邮件都判定为非垃圾邮件,请问在训练集中,准确率为多少,召回率为多少?
(3)如果在应用场景中,希望能尽可能的召回垃圾邮件,应该怎么办?
不应该都是0吗
发表于 2020-12-08 20:38:56 回复(0)
(1)被评为垃圾邮件的发信邮件地址,信的内容,信的格式(长度,段落等)
(2)准确率为1%,召回率为1.01%
发表于 2015-04-30 21:24:09 回复(0)
准确率:99% 召回率:0
可以采取过抽样,是正父类平衡
发表于 2015-08-02 19:50:52 回复(0)
准确率:90% ;召回率 0
提高不平衡样本的召回率方法有:
1增加数据集中的样本数量
2重采样:对于大类数据样本使用欠采样,减少它的样本数;对于小类数据样本采取过采样,增加它的样本数
3人工制造样本:例如SMOTE算法就可以增加小类样本的数量
4尝试采取多个分类算法,比较不同算法的效果,选取最优的。比如决策树对于样本不平衡效果比较好
5对模型进行惩罚。有两种方式(1)增加小类样本的权重或减少大类样本的权重(2)对于分类器分类小类样本错误时,加大惩罚

发表于 2019-09-24 13:24:56 回复(0)
对于正样本(垃圾邮件),
Recall = 0 (因为一个垃圾邮件都没找到),Precision = 0 (因为没有预测为垃圾邮件的预测)
负样本(非垃圾邮件)
Recall = 100% (所有非垃圾邮件都被找出来了),Precision = 99% (其中有1%的预测为非垃圾邮件的预测是预测错了)

因此,按权重计算总体的召回率(查全率)和准确率(查准率)为:
Recall = (0*1%+100%*99%) /1 = 99%     , Precision= (0*1%+99%*99%)/1 = 0.9801
发表于 2019-01-23 23:04:34 回复(0)
(3)对正样本进行上采样,或者对正样本加大的权重
发表于 2017-08-02 10:12:21 回复(0)