2021-04-23 15:12 携程旅行网_IBU_Java开发工程师

关注

LifeCat系统-搭建Hadoop分布式平台进行数据分析

LifeCat系列学习项目（Hadoop）

LifeCat系统-搭建Hadoop分布式平台进行数据分析

最简单的MapReduce应用程序至少包含 3 个部分：
一个 Map 函数、一个 Reduce 函数和一个 main 函数。
在运行一个mapreduce计算任务时候，任务过程被分为两个阶段：
map阶段和reduce阶段，每个阶段都是用键值对（key/value）作为输入（input）和输出（output）。
main 函数将作业控制和文件输入/输出结合起来。

基于Hadoop分布式计算环境，

为lifecat系统图像运算提供高性能计算环境

同时对lifecat产生的数据进行处理与分析

MapReduce提供图像运算支持

image包

MapReduce提供数据分析支持

data包

MapReduce开发测试Demo

text包

基于MapReduce对文本文件的词频进行统计

并行读取文本中的内容，然后进行MapReduce操作

Map过程：并行读取文本，对读取的单词进行map操作，每个词都以<key,value>形式生成。
我的理解：

　　一个有三行文本的文件进行MapReduce操作。

　　读取第一行Hello World Bye World ，分割单词形成Map。

　　<Hello,1> <World,1> <Bye,1> <World,1>

　　读取第二行Hello Hadoop Bye Hadoop ，分割单词形成Map。

　　<Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1>

　　读取第三行Bye Hadoop Hello Hadoop，分割单词形成Map。

　　<Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>

Reduce操作是对map的结果进行排序，合并，最后得出词频。
我的理解：

　　经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。

　　<Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1>

　　循环执行Reduce(K,V[])，分别统计每个单词出现的次数。

　　<Bye,3> <Hadoop,4> <Hello,3> <World,2>

配置Apache Hadoop开发环境

Linux(ubuntu16.04)环境下配置Hadoop

分布式集群主机

使用1台linux(ubuntu)系统作为集群中心，负责任务的发布

ubuntu16配置Hadoop环境

Linux(centos7.4)环境下配置Hadoop

分布式集群环境

使用2台linux(centos)系统作为分布式环境，进行分布式计算

centos7配置Hadoop环境

主机配置HDFS1

HDFS2

Windows10环境下配置Hadoop

开发环境

在windows10环境中通过伪分布式环境进行项目的开发

win10配置Hadoop环境

@项目源码

GitHub：kevinten10/Hadoop-lifecat

相关项目：

LifeCat version1 servlet基础Javaweb服务网站

LifeCat version2 version1相应SSM后台管理系统

LifeCat version3 前后端分离springboot后端

LifeCat version3 前后端分离vuejs前端

LifeCat wechat wechax

LifeCat android 相应Android相册应用

LifeCat python 机器学习进行图像智能

全部评论

推荐最新楼层

05-13 15:05

广西大学算法工程师

淘宝闪购 AI应用开发一面

估计后面2 3个月只有社招的面经了, 粉丝群的春招和暑期的小伙伴分享的差不多了1. 自我介绍2. Java 中 final、finally、finalize 的区别答案：final 是关键字，可以修饰类、方法和变量。修饰类表示不能被继承，修饰方法表示不能被重写，修饰变量表示引用或值不能再次赋值。需要注意的是，final 修饰对象引用时，只是引用不能变，对象内部状态仍然可能改变。finally 是异常处理结构的一部分，通常用于释放资源。无论 try 中是否发生异常，只要 JVM 没有直接退出，finally 通常都会执行。比如关闭连接、释放锁、清理临时文件。finalize 是 Object 类...

AI-Agent面试实战...

点赞评论收藏

分享

05-13 11:43

叠纸游戏_UI美术设计(准入职员工)

叠纸游戏内推，叠纸游戏内推码

前端面试问题：1. 自我介绍2. 低代码平台Blocksuit方案，这个技术选型的逻辑3. 物料和数据源连接是用什么样的解决方案，还追了一下数据源的获取4. 团队规模，负责的具体内容，职责之类的5. 你认为前端工程化包括哪些方面？你具体做过哪些6. Git提交，你们有引入什么工具，检测方式来控制不规范提交7. 前端监控埋点方面有做过哪些吗8. 后面的职业规划9. 离职原因10. 排期和人手不够的情况，假设你作为leader，你怎么处理冲突？反问：1. 项目情况，技术栈2. 面试流程叠纸游戏26届春招+27届nova训练营3.4启动！叠纸游戏成立于2013年8月，是一家专注于内容创作的游戏公司。...

点赞评论收藏

分享

04-21 15:30

武昌首义学院前端工程师

所以这种问题（问在不在xxx）到底应该怎么回答啊

飞屋一号：实话实说就行，先争取一下能不能线上，不行就直接放弃，付出与回报不成正比

我的求职进度条

点赞评论收藏

分享

04-27 19:35

萍乡学院后端工程师

28届学院本，求大佬锐评简历。

这两个项目都是自己vibe coding出来的，简历是AI生成优化的，其中还有很多东西是不懂的。求大佬指点🙏🥹

程序员小白条：vibe你只要能cover住面试官问你很多深入的实现和选型方案的原因，以及怎么去检测优化效果的就行了

点赞评论收藏

分享

05-18 14:26

湖南科技大学 Java

菜鸟直管一面

📍面试公司：菜鸟直管🕐面试时间：4.14💻面试岗位：Java开发工程师❓面试问题：自我介绍基本信息确认面向对象语言的特性子类继承父类可以重写吗接口和抽象类的区别创建线程的方式说几个线程安全的集合、线程不安全的集合ArrayList是线程不安全的，如果我想在多线程情况下使用怎么保证线程安全多线程删除或更新ArrayList会有什么问题Restful协议通常有哪些方法可以使用post可以用来获取资源吗mysql和reids为什么会出现数据不一致的情况，你是怎么解决的既然是为了解决高并发场景的问题，延时双删你这个延迟时间不觉得对性能影响很大吗你要保证的数据一致性的这个点在哪里，就是在某一个时刻...

查看16道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届春招投递记录 #

32189次浏览 246人参与

# 妈妈治愈了你哪些脆皮时刻 #

47435次浏览 358人参与

# 27届实习投递记录 #

113700次浏览 1243人参与

# 我的工作日记 #

207789次浏览 1828人参与

# 我的求职总结 #

512097次浏览 7090人参与

# 你投了多少家公司？进展是___ #

248116次浏览 1447人参与

# 大学生该如何认清当下的就业环境？ #

178725次浏览 943人参与

# AI面会问哪些问题？ #

134262次浏览 3438人参与

# 要毕业了，再不说就来不及了 #

6087次浏览 109人参与

# 我与AI的日常 #

10643次浏览 193人参与

# 27届求职交流 #

499610次浏览 4657人参与

# 如果公司降薪，你会跳槽吗？ #

168770次浏览 972人参与

# 今年秋招还有金九银十吗 #

85072次浏览 518人参与

# 25届非技术实习投递记录 #

159365次浏览 1027人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

168695次浏览 916人参与

# 应届生应该先就业还是先择业 #

202285次浏览 944人参与

# 快手求职进展汇总 #

775625次浏览 7155人参与

# 你以为的实习VS真实的实习 #

144165次浏览 760人参与

# 你觉得什么岗位会被AI替代 #

65357次浏览 386人参与

# 你的秋招进行到哪一步了 #

2802743次浏览 23414人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务