Hadoop-Mapreduce实战（倒排索引案例（多job串联））

倒排索引案例（多job串联）

需求：有大量的文本（文档、网页），需要建立搜索索引
- 第一次预期输出结果

it--a.txt	3
it--b.txt	2
it--c.txt	2
pingping--a.txt	 1
pingping--b.txt	3
pingping--c.txt	 1
ss--a.txt	2
ss--b.txt	1
ss--c.txt	1

第二次预期输出结果

it	c.txt-->2	b.txt-->2	a.txt-->3	
pingping	c.txt-->1	b.txt-->3	a.txt-->1	
ss	c.txt-->1	b.txt-->1	a.txt-->2

第一次处理

第一次处理，编写OneIndexMapper

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class OneIndexMapper extends Mapper<LongWritable, Text, Text , IntWritable>{
   
	
	String name;
	Text k = new Text();
	IntWritable v = new IntWritable();
	
	@Override
	protected void setup(Context context)
			throws IOException, InterruptedException {
   
		// 获取文件名称
		FileSplit split = (FileSplit) context.getInputSplit();
		
		name = split.getPath().getName();
	}
	
	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
   
		// 1 获取1行
		String line = value.toString();
		
		// 2 切割
		String[] fields = line.split(" ");
		
		for (String word : fields) {
   
			// 3 拼接
			k.set(word+"--"+name);
			v.set(1);
			
			// 4 写出
			context.write(k, v);
		}
	}
}

第一次处理，编写OneIndexReducer

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class OneIndexReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
   
	
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,
			Context context) throws IOException, InterruptedException {
   
		
		int count = 0;
		// 1 累加求和
		for(IntWritable value: values){
   
			count +=value.get();
		}
		
		// 2 写出
		context.write(key, new IntWritable(count));
	}
}

第一次处理，编写OneIndexDriver

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class OneIndexDriver {
   

	public static void main(String[] args) throws Exception {
   

		args = new String[] {
    "e:/input/inputoneindex", "e:/output5" };

		Configuration conf = new Configuration();

		Job job = Job.getInstance(conf);
		job.setJarByClass(OneIndexDriver.class);

		job.setMapperClass(OneIndexMapper.class);
		job.setReducerClass(OneIndexReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.waitForCompletion(true);
	}
}

查看第一次输出结果

it--a.txt	3
it--b.txt	2
it--c.txt	2
pingping--a.txt	1
pingping--b.txt	3
pingping--c.txt	1
ss--a.txt	2
ss--b.txt	1
ss--c.txt	1

第二次处理

第二次处理，编写TwoIndexMapper

import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class TwoIndexMapper extends Mapper<LongWritable, Text, Text, Text>{
   
	Text k = new Text();
	Text v = new Text();
	
	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
   
		
		// 1 获取1行数据
		String line = value.toString();
		
		// 2用“--”切割
		String[] fields = line.split("--");
		
		k.set(fields[0]);
		v.set(fields[1]);
		
		// 3 输出数据
		context.write(k, v);
	}
}

第二次处理，编写TwoIndexReducer

import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class TwoIndexReducer extends Reducer<Text, Text, Text, Text> {
   

	@Override
	protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
   
		// itstar a.txt 3
		// itstar b.txt 2
		// itstar c.txt 2

		// itstar c.txt-->2 b.txt-->2 a.txt-->3

		StringBuilder sb = new StringBuilder();
        // 1 拼接
		for (Text value : values) {
   
			sb.append(value.toString().replace("\t", "-->") + "\t");
		}
		// 2 写出
		context.write(key, new Text(sb.toString()));
	}
}

第二次处理，编写TwoIndexDriver

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TwoIndexDriver {
   

	public static void main(String[] args) throws Exception {
   

args = new String[] {
    "e:/input/inputtwoindex", "e:/output6" };

		Configuration config = new Configuration();
		Job job = Job.getInstance(config);

job.setJarByClass(TwoIndexDriver.class);
		job.setMapperClass(TwoIndexMapper.class);
		job.setReducerClass(TwoIndexReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(Text.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);

		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		boolean result = job.waitForCompletion(true);
System.exit(result?0:1);
	}
}

第二次查看最终结果

it  c.txt-->2	b.txt-->2	a.txt-->3	
pingping	c.txt-->1	b.txt-->3	a.txt-->1	
ss	c.txt-->1	b.txt-->1	a.txt-->2

全部评论

推荐最新楼层

04-15 13:45

北京邮电大学 Java

阿里云 4.13 大模型应用开发一面

项目提问，为什么选择这个任务，开发中遇到什么问题，自己怎么解决的？项目开发中技术栈的选择和开发流程。 项目中你做了一些优化，有没有和旧策略进行对比，具体有哪些提升？ 介绍下prompt工程，你了解prompt自动化吗？ 介绍下sft，它是怎么做的，有什么衡量指标 rag知识库怎么搭的？向量维度的选择，embedding模型的选择 java里HashMap的底层实现，什么时候转为红黑树，为什么转红黑树策略这样设置，HashMap的key有什么要求（实现hashcode和equals） 编程题：java实现用一个标记位实现一个锁。和面试官说了不会，换成了K个一组翻转链表。

查看9道真题和解析

点赞评论收藏

04-16 09:50

已编辑

蚌埠坦克学院嵌入式软件开发

嵌入式 FreeRTOS 高频考题总结｜面试前一定要过一遍

FreeRTOS 是嵌入式岗位面试里的高频考点，面试官非常喜欢围绕任务调度、同步互斥、内存管理、中断机制、时间管理这些内容深入提问。很多同学平时项目能跑起来，但一到面试就容易卡在原理表达、API使用场景、以及实际项目中的问题定位上。这篇给大家整理一份 FreeRTOS 高频面试题清单，适合用于面试前突击、自查知识盲区。什么是 FreeRTOS？它适用于哪些嵌入式场景？FreeRTOS 和裸机开发相比，最大的区别是什么？FreeRTOS 中任务的基本概念是什么？任务和函数有什么区别？FreeRTOS 的任务有哪几种状态？状态之间如何切换？什么是任务调度器？FreeRTOS 的调度方式有哪些？抢占...

查看30道真题和解析

点赞评论收藏

02-25 16:29

齐鲁工业大学 golang

这份简历有救吗

25届本科生，简历写成这样可以吗，毕业回家了过完年来找工作，很迷茫，不知道投什么岗写项目完全离不开ai，就是投小厂开发岗也感觉过不去面试

找工作勤劳小蜜蜂：自我描述部分太差，完全看不出想从事什么行业什么岗位，也看不出想在哪个地区发展，这样会让HR很犹豫，从而把你简历否决掉。现在企业都很注重员工稳定性和专注性，特别对于热爱本行业的员工。你实习的工作又太传统的it开发（老旧），这部分公司已经趋于被淘汰，新兴的互联网服务业，比如物流，电商，新传媒，游戏开发和传统的It开发有天然区别。不是说传统It开发不行，而是就业岗位太少，基本趋于饱和，很多老骨头还能坚持，不需要新血液。工作区域（比如长三角，珠三角，成渝）等也是HR考虑的因素之一，也是要你有个坚定的决心。否则去几天，人跑了，HR会被用人单位骂死。

点赞评论收藏