【小众技术但很有用】大数据开发面试题【Flume篇】

79、介绍下Flume以及架构

是一个开源的日志系统,是一个分布式。可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据Agent:是一个jvm进程,他以时间的形式将数据从源头送至目的地、Agent 主要有 3 个部分组成,Source、Channel、Sink。Source:负责接收数据到flume的agent的组件,可以处理avro、thrift、exec、jms....一系列日志类型Sink:sink不断轮询channel中的事件并且批量地移除他们,写入到存储系统或者另一个flume agentchannel:是位于source和sink之间的缓冲区,有基于文件的fliechannel和基于内存的memorychannel(一个安全但是慢,一个快但是不安全)Event:是flume的基本传输单元,以event的形式将数据从源头送至目的地,event由header和body组成

80、Flume事务机制

flume的事务机制类似数据库的事务机制:要么都成功,要么都失败一个事务负责从source到channel,另一个事务负责从channel到sink

81、Flume采集数据会丢失吗?

flume是不可能丢失数据的,内部由完善的事务机制,两个环节的事务性保证flume不会丢失数据,但是可能造成数据的重复,flume作为高容量并行采集系统次啊用的是at-least-once,造成每个source产生的事件至少到达sink一次,又可能会造成重复

82、flume的拦截器

是设置在source和channel之间,source接收到的事件event,拦截器可以进行转换或者删除

#我的简历长这样##软件开发薪资爆料##23届找工作求助阵地#
【猜你想看】大数据面经 文章被收录于专栏

不定期分享大数据相关技术面经,本着免费原则,随意白嫖

全部评论

相关推荐

JamesGosling1:同一个公司的实习为什么写三次,就算是不同的小组的话,直接写一段要好点吧
点赞 评论 收藏
分享
评论
6
7
分享

创作者周榜

更多
牛客网
牛客企业服务