屡败屡战的大数据秋招之嗷嗷问的Kafka 总结

1. 说一下Kafka 是什么,在大数据开发中充当什么样的角色
  • Kafka 是一个分布式流式处理平台,具有高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性。
  • 作用一:消息系统。具备冗余存储、缓冲、异步通信、扩展性、可恢复性等功能。
  • 作用二:存储系统:Kafka有消息持久化和多副本机制。将消息持久化到磁盘,可以把它作为长期的数据存储系统来使用
  • 作用三:流式处理平台。Kafka 可以和流式处理框架进行集成。比如像Spark Streaming和Flink。提供了窗口、连接、变换和聚合等各类操作。
2. Kafka 吞吐量高,为什么
  • 零拷贝:避免了传统IO四步操作,采用DMA 技术,用DMA引擎直接将数据从内核模式传递到网卡设备中
  • 页缓存:将磁盘的数据缓存到内存中,将对磁盘的访问变成对内存的访问
  • 顺序追加:消息落到磁盘中,采用顺序追加,不支持随机访问
  • 分区机制:partition ,实现横向扩展
3. Kafka 如何保证消息的有序性
  • 一个分区,消费者将消息全部写入一个分区中,一个消费者进行消费。🤣 被字节三面面试官怼死了
  • 自定义分区器Partitioner ,重写partition 方法,将消息顺序追加到K个分区,然后在消费者写K个内存队列,相同分区号的数据都存到一个内存Queue中,N个线程分别消费一个内存队列即可
4. 说一下Kafka 的ACK 机制,0,1,-1 分别代表着什么意思
  • ACK=0 表示生产者在成功写入消息之前不会等待任何来自服务器的响应.
  • ACK=1 表示只要集群的leader分区副本接收到了消息,就会向生产者发送一个成功响应的ack,此时生产者接收到ack之后就可以认为该消息是写入成功的.
  • ACK=-1 表示只有所有参与复制的节点(ISR列表的副本)全部收到消息时,生产者才会接收到来自服务器的响应.
5. Kafka message 的格式讲一下
  • crc32 循环冗余检验值
  • attributes:一个字节,低三位表示压缩类型。其余位保留
  • key length + key
  • value length + value
6. Kafka 存储topic 的话你了解过在机器上的存储路径格式吗?换句话说:Kafka 文件目录布局给我说一下!😥顺丰没答上来直接G
  • 一个主题会有多个分区,那么就会有多个topic-partition 的文件夹。每个分区的日志会切分为多个LogSegment。每个LogSegment 的.log 日志文件都会有两个对应的索引文件。偏移量索引文件(.index 为后缀)和时间戳索引文件(以.timeindex为后缀的文件)。
7. Kafka 消费者和分区是如何对应的?如果消费者个数比分区数多会出现什么情况?
8. Kafka 零拷贝,详细过程,传统IO四部操作的过程。零拷贝会经过JVM堆吗?
  • 将数据直接从磁盘文件复制到网卡设备中,不需要经由应用程序之手。减少了内核和用户模式的上下文切换。底层通过sendfile 方法实现。
  • 传统IO需要四步。读两步:磁盘到Read Buffer,读缓冲区到用于程序。写两步:应用程序写数据到写缓冲区Socket Buffer,写缓冲区写到网卡设备中。
  • 零拷贝技术通过DMA技术将文件内容复制到内核模式的Read Buffer中,和传统IO不同的是,不需要再到用户态走一圈,不再需要额外的Socket Buffer。DMA engine直接将数据从内核模式中传递到网卡设备中。
  • 应用程序空间,用户态。应用程序存放数据就是在堆咯,所以,不会经过JVM堆
9. Kafka 能不能用MySQL 替代?
10. Kafka 有哪几种选举策略?

#秋招##大数据开发工程师##面经##字节跳动##快手#
全部评论
hi~同学,秋招遇“寒气”,牛客送温暖啦!23届秋招笔面经有奖征集中,参与就得牛客会员7天免费体验,最高赢300元京东卡!戳我去看>>>https://www.nowcoder.com/link/zhengjipinglun
点赞 回复
分享
发布于 2022-09-19 13:57 北京

相关推荐

12 85 评论
分享
牛客网
牛客企业服务