首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
牛客图书馆
>
读书笔记
开通博客写笔记
读书笔记
全部
第1章
Spark学习之路 (十八)SparkSQL简单使用
一、SparkSQL的进化之路1.0以前: Shark1.1.x开始: SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:28:22
Spark学习之路 (十九)SparkSQL的自定义函数UDF
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Func...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:30:11
Spark学习之路 (二十)SparkSQL的元数据
一、概述SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:31:19
Spark学习之路 (二十一)Dataset实现原理分析-Dataframe原理介绍和Dataset的对比
Dataframe原理要点 Spark SQL引入了一个名为DataFrame的表格函数数据抽象。设计它的目的在于:简化Spark应用程序的开发。这样就可以在Spark基础架构上处理大量结构化表格数据。 DataFrame是一种数据抽象或特定于域的语言(...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:39:36
Spark学习之路 (二十三)SparkStreaming的官方文档
一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程2.1 图解说明 2.2 文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个App...
牛客大数据入门菜鸡
编辑于 2020-11-27 18:45:13
KAFKA原理
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处...
牛客大数据入门菜鸡
编辑于 2020-11-09 16:11:50
Flink 源码阅读笔记(14)- Async I/O 的实现
在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据。由于外部系统的响应时间和网络延迟可能会很高,如果采用同步调用的方式,那么外部调用的高延迟势必会影响到系统的...
牛客大数据入门菜鸡
编辑于 2020-12-16 14:24:11
Flink 源码阅读笔记(5)- 集群启动流程
在 Flink 1.5.0 版本发布的时候,Flink 迎来了一个重要的改进:根据 FLIP-6 重构了 Flink 集群部署和任务处理模型,以便更好地和管理资源和调度任务,更优雅地和 Yarn、 Mesos、Kubernetes 等框架进行集成。 在这篇文章...
牛客大数据入门菜鸡
编辑于 2020-12-01 15:06:47
JVM 完整深入解析
Java运行时数据区: Java虚拟机在执行Java程序的过程中会将其管理的内存划分为若干个不同的数据区域,这些区域有各自的用途、创建和销毁的时间,有些区域随虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束来建立和销毁。Java虚拟机所管理的...
牛客大数据入门菜鸡
编辑于 2020-11-26 14:35:22
Flink 的状态管理和检查点机制
从状态说起状态 (State) 是 Flink 程序中构建复杂逻辑的基本组件。流处理中的状态可以视作算子上的记忆能力,可以保留和已经处理完的输入相关的信息,并对后续输入的处理造成影响。与之相反,流处理中的无状态操作只会考虑到当前处理的元素,不会受到处理完毕的元...
牛客大数据入门菜鸡
编辑于 2020-12-08 13:32:31
首页
上一页
1
2
3
4
5
6
7
8
下一页
末页
热门图书
探寻网络法的政治经济起源
Oracle 9i & 10g编程艺术
免疫学概览
战争改变历史
Hands-On Machine Learning with Scikit-Learn and TensorFlow
Fluent Python
查看全部