牛客图书馆 > 读书笔记
  • Spark学习之路 (十八)SparkSQL简单使用

    一、SparkSQL的进化之路1.0以前: Shark1.1.x开始: SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+...
    牛客大数据入门菜鸡 编辑于 2020-11-27 18:28:22
  • Spark学习之路 (十九)SparkSQL的自定义函数UDF

    在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Func...
    牛客大数据入门菜鸡 编辑于 2020-11-27 18:30:11
  • Spark学习之路 (二十)SparkSQL的元数据

    一、概述SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。   换句话说,SparkSQL的数据仓库在建立在Hive之上...
    牛客大数据入门菜鸡 编辑于 2020-11-27 18:31:19
  • Spark学习之路 (二十一)Dataset实现原理分析-Dataframe原理介绍和Dataset的对比

    Dataframe原理要点 Spark SQL引入了一个名为DataFrame的表格函数数据抽象。设计它的目的在于:简化Spark应用程序的开发。这样就可以在Spark基础架构上处理大量结构化表格数据。 DataFrame是一种数据抽象或特定于域的语言(...
    牛客大数据入门菜鸡 编辑于 2020-11-27 18:39:36
  • Spark学习之路 (二十三)SparkStreaming的官方文档

    一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程2.1 图解说明 2.2 文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个App...
    牛客大数据入门菜鸡 编辑于 2020-11-27 18:45:13
  • KAFKA原理

    KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处...
    牛客大数据入门菜鸡 编辑于 2020-11-09 16:11:50
  • Flink 源码阅读笔记(14)- Async I/O 的实现

    在使用 Flink 处理实时数据流时,经常需要和外部系统进行交互。例如,在构建实时数据仓库的时候,通常需要将消息和外部维表进行关联,以获得额外的维度数据。由于外部系统的响应时间和网络延迟可能会很高,如果采用同步调用的方式,那么外部调用的高延迟势必会影响到系统的...
    牛客大数据入门菜鸡 编辑于 2020-12-16 14:24:11
  • Flink 源码阅读笔记(5)- 集群启动流程

    在 Flink 1.5.0 版本发布的时候,Flink 迎来了一个重要的改进:根据 FLIP-6 重构了 Flink 集群部署和任务处理模型,以便更好地和管理资源和调度任务,更优雅地和 Yarn、 Mesos、Kubernetes 等框架进行集成。 在这篇文章...
    牛客大数据入门菜鸡 编辑于 2020-12-01 15:06:47
  • JVM 完整深入解析

    Java运行时数据区: Java虚拟机在执行Java程序的过程中会将其管理的内存划分为若干个不同的数据区域,这些区域有各自的用途、创建和销毁的时间,有些区域随虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束来建立和销毁。Java虚拟机所管理的...
    牛客大数据入门菜鸡 编辑于 2020-11-26 14:35:22
  • Flink 的状态管理和检查点机制

    从状态说起状态 (State) 是 Flink 程序中构建复杂逻辑的基本组件。流处理中的状态可以视作算子上的记忆能力,可以保留和已经处理完的输入相关的信息,并对后续输入的处理造成影响。与之相反,流处理中的无状态操作只会考虑到当前处理的元素,不会受到处理完毕的元...
    牛客大数据入门菜鸡 编辑于 2020-12-08 13:32:31