2020-02-28 10:29 已编辑陕西理工大学大数据开发工程师

关注

Spark常见的Transformation算子（二）

`初始化数据`

println("======================= 原始数组 ===========================")
val data: RDD[String] = sc.textFile("src/main/data/test.txt")
println(s"原始数据为：${data.collect.toBuffer}")

`filter`

过滤操作，对RDD中的数据按照函数进行过滤

/**
 * Return a new RDD containing only the elements that satisfy a predicate.
 */
// 返回仅包含函数的结果的RDD
def filter(f: T => Boolean): RDD[T] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[T, T](
    this,
    (context, pid, iter) => iter.filter(cleanF),
    preservesPartitioning = true)
}

Scala版本

// 返回包含“hello”的那些行，只要数据是按行存储的，那么在filter是按照行返回，不需要提前对数据进行按行分隔
println("======================= filter ===========================")
val value: RDD[String] = data.filter(f => f.contains("hello"))
println(s"经过filter处理后的数据为：${value.collect.toBuffer}")

运行结果

`map`

map的输入变换函数引用于RDD中的所有元素

/**
 * Return a new RDD by applying a function to all elements of this RDD.
 */
// 将函数应用于此RDD的所有元素来返回新的RDD
def map[U: ClassTag](f: T => U): RDD[U] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}

Scala版本

// 原始数据按行每一行追加上一个“ nihao”
println("======================= map ===========================")
val value: RDD[String] = data.map(f => f + " nihao")
println(s"经过map处理后的数据为：${value.collect.toBuffer}")

运行结果

`flatMap`

对RDD中的所有元素应用该函数，返回一个新的RDD

/**
 *  Return a new RDD by first applying a function to all elements of this
 *  RDD, and then flattening the results.
 */
// 将该RDD中的所有元素应用该函数，然后将结果扁平化，返回新的RDD
def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
}

Scala版本

println("======================= flatMap ===========================")
val value: RDD[String] = data.flatMap(f => f.split(" "))
println(s"经过flatMap处理后的数据为：${value.collect.toBuffer}")

运行结果

`mapToPair`

将RDD转成PairRDD，在scala中map就可以实现

Scala版本

println("======================= mapToPair ===========================")
val value: RDD[(String, Int)] = data.map(f => (f, 1))
println(s"经过mapToPair处理后的数据为：${value.collect.toBuffer}")

运行结果

`flatMapToPair`

相当于先flatMap，后mapToPair，scala中没有专门的flatMapToPair

Scala版本

println("======================= flatMapToPair-1 ===========================")
val value: RDD[String] = data.flatMap(f => f.split(" "))
val result: RDD[(String, Int)] = value.map(f => (f, 1))
println(s"经过flatMapToPair处理后的数据为：${result.collect.toBuffer}")

运行结果

全部评论

推荐最新楼层

07-02 10:50

河南工业大学 Java

实习和秋招冲突怎么办

继上一个帖子，7.1给ld提的离职。但是ld说我表现处于上游，转正的希望还是很大的。然后又帮我问了一下hr明年的hc，说实习到明年六月份，公司肯定会给我一个满意的答复，但我又怕是画饼。不过如果我直接离职，all in秋招风险还是挺大的，想问一下各位🐂🈶我应该怎么办，求求啦

世界以痛吻我我直接痛...：明年六月太夸张了😂

实习，不懂就问

点赞评论收藏

07-05 11:13

湖南理工大学电气工程师

普通双非电气本科，请牛爷爷们提点意见

[阿

点赞评论收藏

06-15 02:05

已编辑

南昌航空大学数据分析师

这种简历为什么被拒啊？

我是5.21号才知道牛客的，然后之前都是在其他招聘软件上投简历可是几乎没有人看，也从来没有通过初步筛选过，我想知道我的简历问题出在哪里啊，可以怎么优化啊，不想考研真的只想就业，只要能找到专业相关的实习就行，不在乎工资多少，怎么才能找到啊？问一下大佬们

Eason三木：你如果想干技术岗，那几个发公众号合唱比赛的经历就去掉，优秀团员去掉，求职没用。然后CET4这种不是奖项，是技能，放到下面的专业技能里或者单独列一个英语能力。另外好好改改你的排版，首行缩进完全没有必要，行间距好好调调，别让字和标题背景黏在一起，你下面说能做高质量PPT你得展现出来啊，你这简历排版我用PPT做的都能比你做的好。然后自我评价，你如果要干数据工程师，抗压能力强最起码得有吧。

简历中的项目经历要怎么写

点赞评论收藏