Spark Sreaming实战(二)-小试流式处理

1 业务分析

1.1 需求

统计主站每个(指定)教程访问的客户端、地域信息分布

地域: ip转换 Spark SQL项目实战
客户端:useragent获取 Hadoop基础教程

=》如上两个操作:采用离线(Spark/MapReduce )的方式进行统计

1.2 实现步骤

课程编号、ip信息、useragent
进行相应的统计分析操作: MapReduce/Spark

1.3 项目架构

日志收集: Flume
离线分析: MapReduce/Spark
统计结果图形化展示

看起来很简单，没什么高深的，但是现在需求改了嘛，很正常的骚操作对不对！
现在要求实时的精度大幅度提高！那么现在的架构已经无法满足需求了！

1.3.1 问题

小时级别
10分钟
5分钟
1分钟
秒级别
根本达不到精度要求！

实时流处理，应运而生！

2 实时流处理产生背景

◆ 时效性高
◆ 数据量大

◆ 实时流处理架构与技术选型

3 实时流处理概述

实时计算：响应时间比较短。
流式计算：数据不断的进入，不停顿。
实时流式计算：在不断产生的数据流上，进行实时计算

4 离线计算与实时计算对比

4.1 数据来源

离线：HDFS历史数据，数据量较大。
实时：消息队列（Kafka），实时新增/修改记录实时过来的某一笔数据。

4.2 处理过程

离线：Map + Reduce
实时：Spark(DStream/SS)

4.3 处理速度

离线：速度慢
实时：快速拿到结果

4.4 进程角度

离线：启动 + 销毁进程
实时： 7 * 24小时进行统计，线程不停止

5 实时流处理架构与技术选型

Flume实时收集WebServer产生的日志
添加Kafka消息队列，进行流量消峰，防止Spark/Storm崩掉
处理完数据，持久化到RDBMS/NoSQL
最后进行可视化展示

Kafka、Flume一起搭配更舒服哦~

6 实时流处理在企业中的应用

电信行业：推荐流量包
电商行业：推荐系统算法

X 交流学习

Github

全部评论

推荐最新楼层

11-04 10:11

海康威视_自动化开发工程师(准入职员工)

海康威视内推，海康威视内推码

岗位：武汉 嵌入式开发timeline：8.30 测评，10.9 一面，10.11 二面一面技术：自我介绍讲下实习经历平常怎么debug项目中有没有遇到什么问题，怎么解决的介绍一下学校经历了解数据结构吗？基本的数据结构？查找搜索效率？有什么方法可以提高效率？具体围绕数据结构问了很多RTOS，多任务操作反问：做存储固件的，具体的进来再分二面HR：北京线下，地点在北京研发中心，具体内容就是唠家常，一些HR面的基本问题销售工程师工作体验，总结累但成长很多。1.大家最先关注的就是HIK的工作压力，只能说体面厂没有辜负盛名！名不虚传！我来这边是销售岗，基本上每天都要差不多11点下班。因为销售不仅需要对接...

点赞评论收藏

11-04 22:03

武汉理工大学 Java

美团实习四个月等三个月等到转正坏消息

|| 先说下主播个人情况：211本，暑期实习之前有过一段中大厂的后端实习，暑期拿过腾讯的实习offer，综合考虑业务和语言最终去了美团。实习期间体感还是不错的，5月初去的，去了就一直急着要需求做，担心因为没有产出导致转正失败，在第二个星期就和mt透露我希望能够留用。虽然第一个由于美团新人landing的友好性基本没做什么需求，但是后面也写出了小2w行的代码量（不包含单测）。中期经常主动加班赶需求，经常持续一两个星期加班到10点甚至更后面。mt对我确实不错，也是言传身教，实习期间给我讲了很多关于单测，ddd，set化等的理解，也是受益匪浅，此外在做需求的时候，也能看出把比较有含金量的部分交给我做...

菜菜菜小白菜菜菜：我在字节实习了四个月，有转正的压力所以周末大部分也在公司自学，也是因为一些原因转正拖的很久，这个点还没答辩，过段时间才回去答辩。整个不确定性的焦虑贯穿了我的秋招三个月，我也曾经犹豫过是不是应该放弃转正走秋招更快，最后因为沉没成本一直舍不得放弃，前前后后七个月真的挺累的，尤其是没有来字节实习的同学已经校招拿到意向时更加焦虑。这段时间也跟mentor聊了很多次，他告诉我未来工作上或者生活上，比这些更头疼的事情会更多，关键还是要调整好自己的心态。转正没有通过从过程上来看其实跟你自身没太大的关系，拖了三个月不出结果显然是ld的问题，并且今年美团最近的开奖大家似乎都不是很乐观，所以不去也罢。我在字节实习的时候，6月份有一个赶上春招末期的25届同事刚面进来，也拿到了小sp的薪水。不要对这件事有太大的压力，时代的问题罢了

点赞评论收藏