数据流分类(二)——数据流数据

        进行数据流分类就要有数据,在数据流分类任务中,训练数据与测试数据不是一次性可得的,数据流的数据与时间相关。在应用中选择采集一段时间的数据作为训练数据然后预测下一时间段的数据,然后再采集一段时间的数据作为训练数据预测下一时间段的数据,如此往复。即我们可以将上个月的数据作为训练数据调整模型,然后预测这个月的数据,得到这个月过后再用这个月的数据调整模型,预测下个月的数据,时刻保持模型在最优状态。
        下面介绍一个数据流分类中最常用的数据流分类数据(合成数据)——SEA移动超平面概念(SEA Moving Hyperplane Concepts),简称SEA。该数据集来自(http://users.rowan.edu/~polikar/nse.html),包含50000个训练数据和测试数据。该数据分为两类,包含三个特征,特征值在0到10之间,其中两个特征与数据类别相关的,其余一个为噪声特征。
        在算法测试时,原文作者将测试数据和训练数据分成200个各自包含250个训练数据和测试数据的顺序数据块,以数据块为单位去调整模型。这样就模拟现实中数据流分类的使用。
        SEA数据虽然不难处理,但作为一个数据流分类中很经典的数据集还是很有数据流分类的特点,能够较为明显的展现出概念漂移对分类器模型的影响。
        数据流分类中常用的两个现实数据pokerhand和covertype可以在uci官网找到,大家可以试着分块后用传统分类方法体验一下。
        数据分块不是数据流分类对数据的唯一处理方法,滑动窗口也是一种优秀的方法,对数据的处理更为细腻,这里就不一一阐述了。
        注:数据块是按时间顺序排列并且只能按时间顺序使用,不考虑重复使用的情况。
全部评论

相关推荐

07-15 11:41
门头沟学院 Java
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务