MapReduce—平均工资

MapReduce—平均工资

我这里是使用集群去处理这个日志数据,数据在我的github上,默认使用maven去管理所有的jar包
1. 需求分析

按照所给数据文件去统计每个部门的人数,最高工资,最低工资和平均工资

需求统计的日志数据如下:

需要将每个部门的人数,工资进行统计。比如10号部门有3个人,最高工资是5000元,最低工资是1300元,平均工资是2916.666666666667元。则以如下形式进行显示:

10 3 5000 1300 2916.666666666667

2. 解答思路

1.因为要统计部门的人数以及工资,那么在最后的reduce阶段,进行汇总时,可以设置一个计数器,在进行汇总时,就可以计算出部门人数,所以,我们只需要日志数据中的两列,分别是部门编号和工资,将部门编号作为key,工资作为value

2.在reduce输出阶段,因为要输出人数,最高工资,最低工资和平均工资,一共四列,所以需要将计算出的结果拼接成一个Text进行输出

3.在处理过程中我使用Partitioner将数据分开通过不同的reduce去处理

4.如果需要本地运行,记得注释掉avgsal文件中的23/24/25行,并将47行和50行的文件路径修改为自己所使用的文件路径

5.因为在数据扭转的过程中,<K2, V2>和<K3, V3>的数据类型发生了变化,所以要在avgsal中设置map端所输出的数据类型,也就是要指定<K2, V2>的数据类型

mapper端代码

package com.yangqi.avgsal;

import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/** * @author xiaoer * @date 2019/11/12 12:44 */
public class MyMapper extends Mapper<LongWritable, Text, IntWritable, DoubleWritable> {
    IntWritable num = new IntWritable();
    DoubleWritable result = new DoubleWritable();

    /** * 针对每一行的数据,都会执行一次下面的map方法 * * @param key * @param value * @param context * @throws IOException * @throws InterruptedException */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] split = line.split(",");
        String str1 = split[split.length - 1];
        String str2 = split[split.length - 3];
        num.set(Integer.parseInt(str1));
        result.set(Double.parseDouble(str2));
        context.write(num, result);
    }
}

reduce端代码

package com.yangqi.avgsal;

import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/** * @author xiaoer * @date 2019/11/12 12:47 */
public class MyReducer extends Reducer<IntWritable, DoubleWritable, IntWritable, Text> {
    Text result = new Text();

    @Override
    protected void reduce(IntWritable key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {
        // 记录部门的人数
        int num = 0;
        // 记录部门的工资和
        double sum = 0;
        // 记录最大工资
        double max = Double.MIN_VALUE;
        // 记录最小工资
        double min = Double.MAX_VALUE;
        for (DoubleWritable value : values) {
            num++;
            sum += value.get();
            if (max < value.get()) {
                max = value.get();
            }
            if (min > value.get()) {
                min = value.get();
            }
        }
        // 将结果进行拼接,拼接成Text进行输出
        String str = "\t" + num + "" + "\t" + max + "" + "\t" + min + "\t" + (sum / num);
        result.set(str);
        // 以<K3, V3>形式进行写出
        context.write(key, result);
    }
}

partitioner端代码

package com.yangqi.avgsal;

import org.apache.hadoop.mapreduce.Partitioner;

/** * @author xiaoer * @date 2019/11/13 11:54 */
public class MyPartitioner<K, V> extends Partitioner<K, V> {
    public int getPartition(K key, V value, int numPartitions) {
        int emp = Integer.parseInt(key.toString());
        if (emp == 10 || emp == 30) {
            return 0;
        } else
            return 1;
    }
}

avgsal

package com.yangqi.avgsal;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/** * @author xiaoer * @date 2019/11/12 12:50 */
public class AvgSal {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 获取配置对象:读取四个默认配置文件
        Configuration conf = new Configuration();
        System.setProperty("HADOOP_USER_NAME", "hadoop");
        conf.set("mapreduce.app-submission.cross-platform", "true");
        conf.set("mapred.jar", "AvgSal/target/AvgSal-1.0-SNAPSHOT.jar");
        FileSystem fs = FileSystem.get(conf);
        // 创建Job实例对象
        Job job = Job.getInstance(conf, "avgsal");
        // 用于指定驱动类型
        job.setJarByClass(AvgSal.class);
        // 用于指定Map阶段的类型
        job.setMapperClass(MyMapper.class);
        // 用于指定Reduce阶段的类型
        job.setReducerClass(MyReducer.class);
        job.setNumReduceTasks(2);
        // 设置Partition的类型
        job.setPartitionerClass(MyPartitioner.class);

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(DoubleWritable.class);
        // 设置K3的输出类型
        job.setOutputKeyClass(IntWritable.class);
        // 设置V3的输出类型
        job.setOutputValueClass(Text.class);

        // 设置要统计的文件的路径
        FileInputFormat.addInputPath(job, new Path("/emp"));
        // FileInputFormat.addInputPath(job, new Path(args[0]));
        // 设置文件的输出路径
        Path path = new Path("/output");
        // Path path = new Path(args[1]);
        if (fs.exists(path)) {
            fs.delete(path, true);
        }
        FileOutputFormat.setOutputPath(job, path);
        // 等到作业执行,并退出
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}
全部评论

相关推荐

emmm别问我为啥上一条帖子隔了两个月我才开始投简历和拿offer,因为我懒😰简单流程如下:周一凌晨改好的简历,然后到处乱投简历;周二接到了三维家的一面通知,临时抱佛脚的背了一些八股;周三上午一面下午通知第二天hr面;周四上午hr面下午拿offer,遂收手支线:在BOSS上顺手投了几个大厂,投字节的时候不小心投城客户端了,结果过了一天HR突然把我简历要走了,还问我能不能整客户端,我直接一口答应(脏面评警告😢)结果在周三下午的时候给我打电话,说前端有空缺实习岗,问我有没有兴趣,然后就跟我约了周四下午一面😰我都没咋准备啊,咩都不会啊😭结果周四下午面完,晚上打电话通知过一面了,赶紧把二面约在下周一下午,留点缓冲时间。逆大天了,我一半的问题都不会,他居然给我过了?运气未免有点好了😥现在正在恶补计网、网安、性能优化的东西(这三大板块我是几乎一点不会,一面几乎一点答不出来,加上我又没怎么背八股,这块被干烂了😵)心得体会与经验:1.&nbsp;我giao怎么这么快就结束了,我还以为要找好久😨2.&nbsp;大厂的面试问题真的和中厂小厂很大不同,比如在三维家我能自己吹水到vue的数据劫持、Proxy代理响应式之类的他们就觉得很不错了,但是在字节你但凡敢提到一下就会追问你细节了,一追问马脚就全漏出来了3.&nbsp;有信心真的很重要,我感觉我能拿中厂offer最重要的就是吹水吹出自信来了,以至于三维家面试反问面试官有哪里还需要改进的时候,他就说很不错了解的很多😦4.&nbsp;理解很重要,我从头到尾真没背过很多八股,不过有一些知识确实是敲过代码验证过,所以面试的时候能吹水吹得出来😇想了解面经啥的可以直接评论区问我,但我可能也说不全,因为我没有记录,而且今天摆了一天感觉记忆快清空了😵下面是故事时间:我暑假刚开始的时候才开始准备八股,印象很深那个时候连什么原型、事件循环、闭包这些名词都没听过,资料也不知道怎么找,就一直零零散散的准备,感觉也只有js稍微背了一下八股,其他很多时候都是靠完全理解和手写熟悉一些机制的,但这样做效率很低,反正准备了一个多星期半个月就开摆了😭结果一摆就摆到了开学,笔记是乱七八糟的,八股是忘光光的,简历是一直没改的,实习也是一直没投过的。直到上周日晚上偶然和师兄聊天,他突然问我“你怎么还不找实习”,那天晚上才幡然醒悟,是时候做点事情了😡然后就按照上面描述的来走了。其实我感觉我从头到尾都没背特别多八股,也没怎么找刷题资料啥的,早期就是翻尚硅谷或者黑马的入门视频从头学起,中期用面试鸭看了一点点题,主要是在学js机制和敲js代码,后期才发现了w3c的面经网站,然后在那里看着学(那个时候已经懒得敲了,因为有些问题与代码感觉不像是给找实习的看的,忒细了点😂)接下来继续准备字节二面吧,虽然几乎没啥可能可以通过,但是万一有奇迹呢?😍😍😍也祝大家能够早日拿到心仪的offer
一只乌鸦:我已经预见10天后你会发,节孝子启动了
投递三维家等公司10个岗位
点赞 评论 收藏
分享
渴望wlb的牛油果很...:直说卡第一学历不就行了 非得拐弯抹角
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务