八斗学院大数据

八斗学院大数据项目实战

推荐系统介绍

offline层:对海量数据进行离线加工,例如map reduce
nearline层:利用流式处理技术对实时产生的数据进行加工
online层:负责在线计算,例如在线引擎
online引擎模块:检索系统
offline模块:离线数据挖掘
nearline模块:在线数据挖掘
offline:mapreduce or spark
nearline:storm or spark streaming
online:webpy server

map reduce

流量分发:hash
一致性哈希:
虚拟节点
A->A1 A2 A3 A4 A5
B->B1 B2 B3
C->C1 C2
把地址映射成数字然后分散到环上

弱一致性和强一致性

强一致性:必须多台机器完全一致:才提供服务
弱一致性:只要有一台机器是数据最新就可提供服务

mapreduce初步

map reduce是计算框架,不存数据,hdfs是分布式存储框架
map reduce master,slave
master 任务调度
slave 任务执行
client 用户,提出任务的
master有名单会告诉client数据地址
map reduce分而治之
map reduce流程
http://www.justdojava.com/2019/06/06/mapreduce-implementation-process/

JobTracker
• 主进程,负责接收客户作业提交,调度任务到作节点上运行,并提供诸如监控工作节点状态及任务进度等 管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。
• tasktracker是通过周期性的心跳来通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和 reduce任务数目、占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和 客户请求。
TaskTracker
• 由jobtracker指派任务,实例化用户程序,在本地执行任务并周期性地向jobtracker汇报状态。在每一个工 作节点上永远只会有一个tasktracker

hadoop从本地分发文件
-file 小文件
-cachefile 大文件
-cachearchive 大大文件
hadoop fs -text xxx
hadoop fs -cat xxx
hadoop streaming
初步

mapreduce进阶

mapreduce多进程模型
spark采用多线程
file split
Textfile不压缩有点浪费空间
SequenceFile <k,v>
hadoop fs -cat /xxx读明文
haddop fs -text /xxx 查看加密文件
InputFormat功能
data split:如果一句句子横跨2个block,则属于前一个block
record reader:读取一次记录,调用一次map
shuffle
partitioner
在memory buffer里做
spill:sort & combiner

map reduce combiner的bad case
combiner的bad case
配置加载
额外配置加载
配置加载2
map reduce 模拟过程
cat The_Man_of_Property.txt | python map.py mapper_func white_list | sort -k1 | python red.py reduer_func
杀任务 hadoop job -kill ...
hadoop命名
#号前是路径,#号后是别名。
例子

全部评论
你好 请问是八斗学院的学员么
1 回复 分享
发布于 2024-05-28 15:52 上海

相关推荐

昨天 16:52
已编辑
门头沟学院 Java
周五投的,流程今天结束
投递地平线等公司7个岗位
点赞 评论 收藏
分享
代码飞升:别用口语,后端就写后端,前端就写前端,最后别光后悔
点赞 评论 收藏
分享
能干的三文鱼刷了10...:公司可能有弄嵌入式需要会画pcb的需求,而且pcb能快速直观看出一个人某方面的实力。看看是否有面试资格。问你问题也能ai出来,pcb这东西能作假概率不高
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-10 14:10
啊啊啊啊好幸福,妈妈是我找工作发疯前的一束光
黑皮白袜臭脚体育生:看了这篇帖子之后已经第一百次质问老妈,仍然没有得到我的老妈是老板的回答
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务