首页 > 试题广场 >

你曾经处理过的最大量级数据是多少?处理目的是?你是如何处理的

[问答题]
你曾经处理过的最大量级数据是多少?处理目的是?你是如何处理的?处理结果如何?
100
发表于 2018-08-29 17:16:06 回复(0)
数据量:曾处理过的最大量级数据是72GB的数据,共计13亿条船舶AIS(Autonomous information system)数据。
处理目的:通过以数据为驱动,挖掘船舶轨迹的分布,进而通过线性拟合、AR、MA、ARMA、BLS等回归拟合算法,对船舶轨迹进行拟合,得到最优的拟合方法,以此对未来的航迹进行预测分析。
处理方法1:最开始我拿到72GB的数据,确实有点儿慌,根本就无从下手。我深知Excel一次性也就最多能处理1048576条数据量,如果数据量达到这个量级,基本上Excel就崩溃了,无法对其进行操作。尔后在转战access数据库,可是access数据库也并不能满足我的要求,其一次性最多可以处理4GB的数据,具体的处理能力还与电脑的配置和位数相关。之后,我想借助MapReduce的思想来进行处理,将大数据量分为具体小块,然后分别做数据处理。拿到的数据量以 csv为后缀名,其实我们都知道,csv文件本质上是个文本文件,于是通过Windows自带的winrar压缩软件,进行分割文件。将72GB的数据,一开始分为144个512MB的子文件,但是用access数据库打开还是很卡,而且经常会导致电脑崩溃,所以将128个文件继续分割,最终分为了288个256MB的子文件,这下终于可以用access数据库打开了,而且也可以流畅的做一些数据处理、MySQL语句筛选等操作。相信这种方法非常落后了,也是非常笨的一种方法。后来我和实验室老师谈了一下,他指导了我,所以我就有了下面的这种方法。
处理方法2:使用MySQL server来存储数据。首先需要下载MySQL server并且安装它,表示这个MySQL server安装过程很心酸,需要的组件太多。一开始使用bulk insert大数据导入命令并不好使,可能是数据量太大了,而且原始数据还没有主键,所以很困难。之后我尝试将数据先到Linux系统下进行打包压缩处理,利用hadoop完全分布式系统,通过MapReduce框架将数据分成8个小块,7个文件为10GB,1个文件是2GB分别进行打包处理,将得到的数据压缩另存为数据库文件,得到最后的数据量在30GB左右,相当于压缩了一半。之后,我将得到的数据库文件直接拷贝到数据库安装文件的本地数据库文件夹下,这样启动数据库的时候,会自动读取,直接避开将其从本地文件硬性导入的步骤。就这样,MySQL server顺利读取了数据库文件,通过数据库查询命令,可以看到数据的量级为13亿条,而且筛选的速度还过得去。据说MySQL server可以处理2TB的数据量,所以这些数据就不足为惧了。
处理结果:通过处理结果1得到的数据量会损失一部分,因为硬性的切割,会导致数据的首尾两部分数据存在乱码的现象,所以在导入access数据库的时候会出现报错,无法导入的情况。这个情况我当时处理的办法就是利用UltraEdit工具进行预处理,将乱码的数据删除。当然了,乱码的数据毕竟是少数,对于13亿条数据量来说,那些数据的影响基本上可以忽略不计。不过话说回来,对288个子文件进行数据筛选和处理,耗时耗力,我也是深受其苦啊。通过处理结果1得到的数据量和原始数据量是吻合的,虽然技术层面的要求高了些,但是从结果来看,却是十分的完美。而且,后期的筛选和数据提取也是十分的方便、快捷。

发表于 2018-09-07 13:28:54 回复(5)
1.你曾经处理过的最大量级数据是多少?腾讯集团2005~2020年海外投资企业数据的分类汇总
2.处理目的是?为了整理出腾讯集团2005~2020年海外投资的重点和趋势变化,并以图表和文字形式呈现,从而辅助分析腾讯海外业务的发展战略
3.你是如何处理的?首先通过腾讯集团公关部宣传PPT、腾讯公司官网信息和年度财报确定腾讯海外业务的行业分布,再通过36氪、虎嗅、极客公园等金融媒体报道和维基百科、被投资公司官网的信息披露,了解腾讯每年海外投资的公司,进一步汇总腾讯投资公司行业领域、金额、所在国和不同时间的投资频率,最后也会与桔子数据等投资数据网站的信息进行比对,汇总成以图表和文字为主的报告。
4.处理结果如何?成功收集了腾讯集团2005~2020年海外投资企业数据,在部门内提交报告《海外业务发展现状及问题分析》,其中并以图表重点形式呈现了腾讯近年来海外投资的所在国趋势、行业趋势以及投资频率,辅以文字分析背后的腾讯海外经营战略的变化,并提出自己的针对性建议。


发表于 2020-09-27 17:49:11 回复(0)
000
发表于 2019-03-05 23:35:15 回复(0)
只用excel处理过数据的匿了。。。
发表于 2020-04-25 02:16:12 回复(0)
调差问卷200份,利用spss测算出研究结果
发表于 2021-03-23 10:49:21 回复(0)
策略评论数,大概6000,处理的目的是筛选优质评论,并且后台操作加赞,处理结果是:有效的提高了社区氛围
发表于 2020-04-11 16:47:15 回复(0)
最大量级数据在10000条以上,数据是吉林省对外开放中涉及到对外投资,外商投资和对外贸易的吉林省主要公司,以及全过重要省市的相关数据。
处理目的是要找出不同的行业对吉林省对外开放的贡献程度
通过excel做出量表,以及SPSS测出其中的其中的效度值
处理结果是明显可以看出来第一产业对吉林省的对外开放贡献最大
发表于 2021-04-16 08:24:30 回复(0)
100000;参加大数据竞赛使用excel处理的。
用Python。
处理结果:找到数据的规律
发表于 2019-04-04 23:21:22 回复(0)
8888
发表于 2022-03-03 18:02:55 回复(0)
1.我处理过最大量级数据是CGSS2015的数据,共有14000多个数据。
2.处理目的是探索“和谐社会感知”的测量指标是否显著;另外,还要检验社会保障和自我保障对居民和谐社会感知的影响是否显著及其影响效应。
3.我采用的方法是结构方程模型里面的MIMIC模型,即多指标多因素模型。
(1)首先使用探索性因子分析,检验指标变量是否在测量唯一的一个公因子,接着使用验证性因子分析(CFA)检验整个因子模型是否显著;
(2)然后用MIMIC模型综合结构模型和测量模型,看自我保障、社会保障对和谐社会感知的影响效应。
4.处理结果为:
(1)因子分析成立;
(2)自我保障及社会性医疗保险和养老保险对和谐社会感知的影响显著为正,并且前者的效应始终高于后两者。
发表于 2020-03-21 21:14:10 回复(0)
因为所在团队需要做一些算子,从而需要解决一些数据集结问题,一般在一百左右,处理这些数据的目的在于集结这些有效的数据信息,从而得到优质的数据结果。通常我会用一些OWA、GOWA等算子处理这些数据,所用算子能够有效的集结这些数据。
发表于 2018-07-26 17:49:57 回复(0)
处理过的最大量级数据为本人研究生阶段课题 学习算法中所应用的数据集数据,其存储容量约20G左右

处理目的:为提高锥束XLCT重建图像的空间分辨率,拟采用一种深度学习方法。深度学习方法主要包含4个步骤:①数据集制作   ②将数据集喂入已搭建好的网络框架  ③ 测试重建效果,根据准确率(acc)及损失函数(loss)调整网络参数,优化网络模型   ④ 将最优网络模型保存,用于XLCT图像重建。其中,在第①步数据集的制作中,需涉及大量数据处理相关工作。此内容将在处理方法中具体展开。
处理方法:
  •     数据集的制作
            数据集的制作要遵循样本数量足够多、且样本数据足够丰富的原则,使得网络可以在大量随机样本学习到通用规律,模型才具有一定的普适性。
            在数据集制作过程中:首先,将一个参数固定,MATLAB中撰写for循环语句。如将重建目标体的质心位置确定,目标体的半径作为随机参数。以此得到同一个质心位置出大量不同半径的目标体。接下来,在第一步的基础上,将质心位置作为随机参数,这一步的目的是得到不同质心位置处不同半径的目标体。
1
2
3
4
5
6
# 本人所使用的编译软件为MATLAB,语句形式符合MATLAB语言编译规范,C++可能需要稍作调整
for i=目标体质心位置1:目标体质心位置2    #质心位置可提前写好,放在例如node的变量中
    for j=1:n    # 目标体半径循环
      #####
    end
end
  •     数据集的处理
            数据集的处理过程的目的是对于上一步制作的数据集做到随机乱序、并且添加不同程度的噪声,增强样本的多样性,使得模型在各类噪声环境下也能取得较为理想的重建结果。主要分为以下5个步骤:
            1、添加噪声
                  信噪比处理部分主要在MATLAB中实现,如本项目添加10db~50db的随机噪声
            2、转化文件格式
                  在使用MATLAB制作好数据集的之后,需要现在python中将.mat文件转化为python中常用的.npy文件或.npz文件,该类文件存储空间占比小,同时加载此类文件速度相比于直接加载.mat文件速度会大幅提升。
            3、数据集写入
                  load 相应的npz/npy文件即可
           4、数据集乱序
                 在Python中使用相应语句即可
            5、划分训练集和测试集
                  一般按照8:2的比例去划分训练集和测试集,测试集切记要使用没有参与过训练的数据!

处理结果:
           模型经过优化后,loss为0.005,acc约为98%。
编辑于 2021-09-08 08:50:08 回复(0)
处理广汽丰田在一周各渠道投放信息流。目的是评估投放效果。方式,各平台按日期数据收集与汇总,评估不同账号类型在不同平台的投放转化率
发表于 2021-08-08 15:14:14 回复(0)
手吓得不敢说话
发表于 2021-06-28 14:45:03 回复(0)
111
发表于 2021-04-18 14:21:47 回复(0)
万级浏览量的FCM推送数据。
处理的目的:
1.了解端内各个国家FCM的推送打卡率,同比之前两周做对比,计算不同内容对于推送打开率的影响,并且反应到当地的运营团队,对打开率低的内容作出调整,优化产品的打开率。
2.在业务需求上,不能仅通过拍脑袋,而是需要计算预测不同内容能够带来什么样的影响,为未来的内容方向做铺垫。
处理方式:
1.向研发部门要上周的FCM打开数据
2.通过数据透视表筛选掉无关数据,保留四个主要运营国家的数据并一一对应
3.通过excel表格对比前三周的数据,并且从内容格式、推送达人、推送时间等多个维度进行分析
4.把分析的结果反馈给当地的运营部门,并在下周进行修改发布
处理结果:
端内的FCM打开率提升10%
发表于 2021-03-10 22:01:05 回复(0)
最大量级数据:十几万 处理目的:通过匹配,计算,多重筛选,获取购买了直播款并中奖的客户名单,然后进行礼品配发 处理方式:使用Excel的vlookup,sumifs,透视表等函数和表格组合 处理结果:成功筛选出可以进行礼品配发的客户名单
发表于 2020-12-10 19:25:27 回复(0)
曾经一次性处理过上万条反馈信息,目的是进行评分下降原因的分析。
用Excel进行少选分类,对低分反馈进行筛选,编号统计数据。
找到了低分反馈的集中原因。
发表于 2020-09-06 18:45:08 回复(0)
2018.根据当时的可能参加活动的人员进行报备预估,然后考虑相关活动所花费,买的赠送礼品的数量,,我曾作为线下活动负责人对该活动相关事宜进行策划。根据当时的可能参加活动的人员进行报备预估,然后考虑相关活动所花费,买的赠送礼品的数量,借租服饰所用的金额,同时也组织十二名同学表演才艺,及组织排练来达到吸引的目的,因为当时地点在卡拉干达国立技术大学主楼里面,我们活动时间选定为当地时间12:00—15:00中,(因为当地时间12:30为最后一节课,
发表于 2020-03-01 22:59:01 回复(0)