大数据开发学习记录帖 Day7
【事宜】今天开始学习MapReduce,了解了MR的定义,优缺点,核心思想,从官方WordCount源码中了解了MR程序的构成,Hadoop自身的数据类型,并尝试手写了MR的WordCount案例。
【笔记】
1. MR: 分布式运算程序的编程框架。易于编写的框架,具有良好的扩展性,高容错性,适合对海量数据的离线处理,但不擅长数据的实时处理。
2. MR程序主要由驱动类,自定义Mapper类,自定义Reducer类组成。驱动类负责job的提交,自定义的Mapper和Reducer类需要继承官方的Mapper和Reducer,并重写map和reduce方法(业务逻辑)。
3. Hadoop数据类型,按规律记忆:int -> IntWritable String -> Text
【力扣】leetcode总题数:176,每日一题。
【感想】坚持一周了,继续加油。
【事宜】今天开始学习MapReduce,了解了MR的定义,优缺点,核心思想,从官方WordCount源码中了解了MR程序的构成,Hadoop自身的数据类型,并尝试手写了MR的WordCount案例。
【笔记】
1. MR: 分布式运算程序的编程框架。易于编写的框架,具有良好的扩展性,高容错性,适合对海量数据的离线处理,但不擅长数据的实时处理。
2. MR程序主要由驱动类,自定义Mapper类,自定义Reducer类组成。驱动类负责job的提交,自定义的Mapper和Reducer类需要继承官方的Mapper和Reducer,并重写map和reduce方法(业务逻辑)。
3. Hadoop数据类型,按规律记忆:int -> IntWritable String -> Text
【力扣】leetcode总题数:176,每日一题。
【感想】坚持一周了,继续加油。
全部评论
相关推荐
08-14 16:01
上海外国语大学 招聘专员 
点赞 评论 收藏
分享