遥遥领先的Java

2019-07-17 03:30 华为_2012实验室_Java工程师

关注

Flink实战(四) - DataSet API编程

1 你将学到

◆ DataSet API开发概述
◆ 计数器
◆ DataSource
◆ 分布式缓存
◆ Transformation
◆ Sink

2 Data Set API 简介

Flink中的DataSet程序是实现数据集转换（例如，过滤，映射，连接，分组）的常规程序.
最初从某些Source源创建数据集（例如，通过读取文件或从本地集合创建）
结果通过sink返回，接收器可以例如将数据写入（分布式）文件或标准输出（例如命令行终端）
Flink程序可以在各种环境中运行，单机运行或嵌入其他程序中
执行可以在本地JVM中执行，也可以在集群机器上执行.

有关Flink API基本概念的介绍，请参阅本系列的上一篇
Flink实战(三) - 编程模型及核心概念

为了创建自己的Flink DataSet程序，鼓励从Flink程序的解剖开始，逐步添加自己的转换!

3 测试环境

4 Data Sources简介

数据源创建初始数据集，例如来自文件或Java集合。创建数据集的一般机制是在InputFormat后面抽象的

Flink附带了几种内置格式，可以从通用文件格式创建数据集。其中许多都在ExecutionEnvironment上有快捷方法。

4.1 基于文件

readTextFile（path）/ TextInputFormat
按行读取文件并将它们作为字符串返回
readTextFileWithValue（path）/ TextValueInputFormat
按行读取文件并将它们作为StringValues返回。 StringValues是可变字符串
readCsvFile（path）/ CsvInputFormat
解析逗号（或其他字符）分隔字段的文件。返回元组，案例类对象或POJO的DataSet。支持基本的java类型及其Value对应的字段类型
readFileOfPrimitives（path，delimiter）/ PrimitiveInputFormat
使用给定的分隔符解析新行（或其他char序列）分隔的原始数据类型（如String或Integer）的文件
readSequenceFile（Key，Value，path）/ SequenceFileInputFormat
创建JobConf并从类型为SequenceFileInputFormat，Key class和Value类的指定路径中读取文件，并将它们作为Tuple2 <Key，Value>返回。

4.2 基于集合

fromCollection（Iterable） - 从Iterable创建数据集。 Iterable返回的所有元素必须属于同一类型
fromCollection（Iterator） - 从迭代器创建数据集。该类指定迭代器返回的元素的数据类型
fromElements（elements：_ *） - 根据给定的对象序列创建数据集。所有对象必须属于同一类型
fromParallelCollection（SplittableIterator） - 并行地从迭代器创建数据集。该类指定迭代器返回的元素的数据类型
generateSequence（from，to） - 并行生成给定时间间隔内的数字序列。

4.3 通用

readFile（inputFormat，path）/ FileInputFormat
接受文件输入格式
createInput（inputFormat）/ InputFormat
接受通用输入格式
5 从集合创建DataSet

5.1 Scala实现

5.2 Java实现

6 从文件/文件夹创建DataSet

6.1 Scala实现

文件

文件夹

Java实现

7 从csv文件创建Dataset

7.1 Scala实现

系列文章

Flink实战(三) - 编程模型及核心概念

#笔试题目##面经##春招##实习#

全部评论

推荐最新楼层

昨天 14:54

已编辑

西安交通大学计算机类

25届0offer鼠鼠道心快要破碎了

简单记录一下求职进度吧美团平台java后端：笔试 5/5 第一次二面排序挂、第二次二面直接挂、4.22第三次二面至今无消息小红书社区技术-java后端：笔试3/3 4.16一面后无消息pdd服务端：笔试4/4 4.20一面 4.25二面华为-通用软件开发：免笔试 4.26一面携程：笔试4/4 尚未约面饿了么：笔试没做 4.23一面后无消息（疑似KPI）腾讯云：笔试没做 4.17一面后10分钟接着挂简历挂：快手、高德地图无实习选手真的找不到暑期实习吗，虽然希望很小，但还是期待能拿个offer啊4/26 更新：团子offer了，我是团孝子！

投递快手等公司10个岗位 >

点赞评论收藏

转发

摆烂了的小蜗牛很紧张

04-24 15:35

清华大学深圳国际研究生院电子信息类

大家觉得哪个offer更好呢？

我个人倾向于阿里，我就在杭州离我比较近，最近都在浙大交流阿里base杭州，美团base成都实习的薪资待遇:阿里国际>美团转正率:  美团＞阿里国际？存疑转正base:阿里国际>美团，虽然阿里国际比其他bu低，不过比美团略高一点貌似业务前景:持平？都算不上核心成都我还挺喜欢的，但是实习去成都不太方便，有点远，秋招去成都的话倒是还不错欢迎牛油们讨论

投递美团等公司10个岗位 > 你收到了团子的OC了吗

点赞评论收藏

转发

不愿透露姓名的神秘牛友

04-05 09:23

Java后端简历求指导

目前简历根本过不了中大厂，想知道问题出在哪里，求大佬们的指点#简历被挂麻了，求建议##实习，投递多份简历没人回复怎么办##正在实习的碎碎念##简历#

简历被挂麻了，求建议实习，投递多份简历没人回复怎么办

点赞评论收藏

转发

柚子变成了苹果

02-27 06:48

沈阳理工大学计算机类

二本计算机，无竞赛，无实习，无经验，没有四级，还能找到工作吗？是不是连销售都找不到啊

点赞评论收藏

转发

04-22 20:35

门头沟学院计算机类

momenta测开一面 45 min

1，个人介绍（1分钟）---------------------2，介绍下项目（15分钟）（全程我自己在讲，面试官没见过这个项目）a. 压测数据，过程b. 线程池，日志系统，定时器，http 连接处理，数据库连接池（讲的比较细，当然，目前还是经不住大厂开发岗拷打）---------------------3，笔试：两点距离（10分钟）（没有输入，自己给定距离，然后输出，自己构造结构体啥的）4，博客里比较有技术含量的一篇（10分钟，发了2篇，简单介绍了下，观察者模式 + 虚拟机魔法）5，闲聊（10分钟）---------------------这是我的第二次面试，比第一次面试好多了，，，第一次面...

Momenta一面33人在聊

点赞评论收藏

转发

点赞收藏评论

招聘动态

联易融2024届营销管培生校园招聘

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

330593次浏览 6969人参与

# 晒一晒我的offer #

2745123次浏览 49338人参与

# 华为求职进展汇总 #

429851次浏览 4309人参与

# 第一次面试 #

12634次浏览 192人参与

# 非技术岗薪资爆料 #

3810次浏览 91人参与

# 应届生应该先就业还是先择业 #

10291次浏览 102人参与

# 来聊聊机械薪资天花板是哪家 #

16669次浏览 127人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

21621次浏览 208人参与

# 百度工作体验 #

18837次浏览 204人参与

# 为什么那么多公司毁约 #

31813次浏览 267人参与

# 实习工作，你找得还顺利吗？ #

4607次浏览 67人参与

# 除了offer，现在你还缺点啥？ #

1722次浏览 37人参与

# 租房前辈的忠告 #

19510次浏览 1565人参与

# 如果校招重来我最想改变的是 #

69429次浏览 1372人参与

# 通信硬件人笔面经互助 #

56819次浏览 1289人参与

# 机械人的薪资开到多少，才适合去？ #

40977次浏览 245人参与

# 面试被问第一学历差时该怎么回答 #

13318次浏览 148人参与

# 通信硬件薪资爆料 #

130969次浏览 866人参与

# 你已经投递多少份简历了 #

240207次浏览 3858人参与

# 如果再来一次，你还会学硬件吗 #

16503次浏览 327人参与

牛客网
牛客企业服务