八斗学院大数据

八斗学院大数据项目实战

推荐系统介绍

offline层:对海量数据进行离线加工,例如map reduce
nearline层:利用流式处理技术对实时产生的数据进行加工
online层:负责在线计算,例如在线引擎
online引擎模块:检索系统
offline模块:离线数据挖掘
nearline模块:在线数据挖掘
offline:mapreduce or spark
nearline:storm or spark streaming
online:webpy server

map reduce

流量分发:hash
一致性哈希:
虚拟节点
A->A1 A2 A3 A4 A5
B->B1 B2 B3
C->C1 C2
把地址映射成数字然后分散到环上

弱一致性和强一致性

强一致性:必须多台机器完全一致:才提供服务
弱一致性:只要有一台机器是数据最新就可提供服务

mapreduce初步

map reduce是计算框架,不存数据,hdfs是分布式存储框架
map reduce master,slave
master 任务调度
slave 任务执行
client 用户,提出任务的
master有名单会告诉client数据地址
map reduce分而治之
map reduce流程
http://www.justdojava.com/2019/06/06/mapreduce-implementation-process/

JobTracker
• 主进程,负责接收客户作业提交,调度任务到作节点上运行,并提供诸如监控工作节点状态及任务进度等 管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。
• tasktracker是通过周期性的心跳来通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和 reduce任务数目、占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和 客户请求。
TaskTracker
• 由jobtracker指派任务,实例化用户程序,在本地执行任务并周期性地向jobtracker汇报状态。在每一个工 作节点上永远只会有一个tasktracker

hadoop从本地分发文件
-file 小文件
-cachefile 大文件
-cachearchive 大大文件
hadoop fs -text xxx
hadoop fs -cat xxx
hadoop streaming
初步

mapreduce进阶

mapreduce多进程模型
spark采用多线程
file split
Textfile不压缩有点浪费空间
SequenceFile <k,v>
hadoop fs -cat /xxx读明文
haddop fs -text /xxx 查看加密文件
InputFormat功能
data split:如果一句句子横跨2个block,则属于前一个block
record reader:读取一次记录,调用一次map
shuffle
partitioner
在memory buffer里做
spill:sort & combiner

map reduce combiner的bad case
combiner的bad case
配置加载
额外配置加载
配置加载2
map reduce 模拟过程
cat The_Man_of_Property.txt | python map.py mapper_func white_list | sort -k1 | python red.py reduer_func
杀任务 hadoop job -kill ...
hadoop命名
#号前是路径,#号后是别名。
例子

全部评论
你好 请问是八斗学院的学员么
点赞
送花
回复 分享
发布于 05-28 15:52 上海

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务