2022-12-11 23:35 Java 发布于广东

关注

大数据建模简易流程

一.需求分析

通过与相关人员沟通交流等了解大数据建模的需求背景、主要目的，以及明确建模的目标。

二.数据收集

a.利用现有数据：内部的或者网络上开源整理的。

b.埋点采集：在页面进行数据埋点记录用户行为实时采集。

c.通过网络爬虫在互联网上爬取所需数据。

d.购买数据或标注师手动标注。

三.数据存储

a.结构化、数据量有限的采用关系型数据库存储（MySQL、Oracle）。

b.非结构化数据采用NoSQL数据库（MongoDB）进行存储。

c.少量高频使用的采用内存型数据库存储（Redis、Imdb）。

d.海量数据采用Hadoop平台存储。

e.针对实时性数据采用流处理平台（Storm、Flink）进行处理后存储。

四.数据预处理和特征工程

a.异常值处理：剔除超大、超小、偏离很大不符合常规的数据。

b.空值处理：直接剔除或使用空值、平均值等填充。

c.数据量化：如通过OneHot编码等将高中低这类转为数字。

d.特征转化：如通过“结束时间”和“开始时间”转化得“使用时间”，提取有价值信息！

e.标准化：采用最大最小标准化、z-score标准化等转化不同量纲数据。

f.特征选择：分析各字段间相关性，相关性很强的保留一个即可。分析特征和目标的相关性，将相关性非常低的特征剔除减少无用字段。

g.降维：若字段特别多训练花费时间会很长，通过PCA主成分分析法降维。

五.大数据建模

a.数据划分：划分训练、验证、测试集，当正负样本极不均衡时需要提升负样本抽取比例进行数据均衡。

b.建模框架：Tensorflow、 PyTorch、 PaddlePaddle等；scikit-learn、Spark ML等

c.模型选择：根据分类、回归、聚类等场景需求选择模型，在选择较多时可以同时训练多个模型，比对评选最优模型。

d.模型调参优化：根据经验进行逐步调整迭代训练，也可尝试使用自动调参工具AutoML。

e.模型集成：通过权重投票机制等集成多个模型结果降低方差，提升泛化性。

f.模型评估：采用十折交叉验证法以更准确评估模型。评估指标上常见的有准确率、召回率、F1、ROC曲线等。

六.模型应用

对模型进行部署，编写服务模块及测试验收。

大数据常见应用场景：大屏可视化展示、个性化推荐、大数据报告指导决策等。

一般在把大数据模型投入应用之后，会定期收集分析应用效果，根据最新的数据进行重新训练学习，以保持较高的准确度。

#大数据建模#

全部评论

推荐最新楼层

京东校招内推

05-14 18:13

京东_零售技数中心技术质量部_软件测试开发工程师

成都京东直招，25届后端java开发实习生

成都京东某研发部门（京东零售-平台产品与技术研发中心-营销研发部）直招25年6月份毕业的985研究生，java后端研发工程师！ 实习表现好即可录用，拿到25届校招offer~~ 有兴趣的快来联系我！工作地点：成都市武侯区潮音路86号京东西南总部大厦 福利待遇：周末双休、餐补、加班打车报销、班车接送等 简历投递方式： tangmanling3@jd.com（邮件标题请注明：java开发实习生_学校_姓名_手机号）中午11点、下午5点、晚上8点看一次邮件，大家赶快投递起来！部门直招，流程快！

投递京东等公司6个岗位 >

点赞评论收藏

我是栗栗呀

05-16 17:55

Java

23届考研-Java面经（华为OD）

本人情况23届按照栗栗说法就是临时增加的一个部门需求的目标科班毕业，二战考研，出分后感觉希望不大，于是也准备找工作，综合考虑下来，还是决定来OD，在牛客网上看到栗栗的帖子，觉得挺靠谱的，于是就在栗栗这里走流程了，事实证明也确实很靠谱。2.26前期准备栗栗给了机考的题库和八股文的资料，按照这些资料去准备。准备了将近一个月吧，边等复试名单，边把题库都做了一遍，复试名单一出没进，于是开始约机考。3.24机考1.虚拟理财游戏2.整数对最小和 3.数据单元的变化替换三道题都是原题，都在题库中刷到过，但要注意不能原模原样代码写上去，得改动一下， 不然可能查重率会高。3.25告知机考通过，准备综测。3.25...

查看4道真题和解析

点赞评论收藏

Lindsey00

04-21 21:12

江汉大学电子信息类

研二找实习

大家帮忙看看简历可以怎么改改？ #最后再改一次简历#

最后再改一次简历

点赞评论收藏

向宇同桌

03-29 21:06

牛客网创始人

牛友们加油吧😝😝

点赞评论收藏

niuniuniuniuniuniuniuniu

05-16 12:39

人工智能

现在在哪个平台找工作比较好一点？

最近几乎都没有收到面试，一直都没找到工作崩溃了，兄弟们都在哪里投递简历的呀？

牛客在线求职答疑中心牛客解忧铺

点赞评论收藏

5 11 评论

招聘动态

网易游戏（互娱）

2025届实习生培养项目

滴滴

2025届秋招储备实习生招聘

全站热榜

正在热议

# 正在春招的你，也参与了去年秋招吗？ #

# 想实习转正，又想准备秋招，我该怎么办 #

117491次浏览 1326人参与

# 正在实习的你，有转正机会吗？ #

106209次浏览 1043人参与