每日一题:HDFS文件存储格式有哪些?

来自百度提前批——数据研发一面

参考答案

在HDFS中,有多种文件存储格式,主要分为行式存储和列式存储两大类:

  • 行式存储包括TextFile和SequenceFile,其中TextFile是最基本的格式,每一行就是一条记录,字段间用分隔符进行分隔,易于生成和解析但存储效率低,SequenceFile是一种二进制键值对的存储格式,存储效率更高,但不太适用于仅查询列的OLAP场景
  • 列式存储包括ORC和Parquet,他们和SequenceFile一样都是基于二进制存储的,但是基于列式存储,更适用于OLAP分析场景,其中ORC是Hive引擎的首选,Parquet是Spark引擎的首选

alt

alt

#牛客创作赏金赛##数据人的面试交流地##百度秋招提前批进度#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

相关推荐

07-28 15:06
郑州大学 Java
一面(60min):1、自我介绍2、垃圾回收了解吗3、Java 的每个版本的回收,Java8用的什么?4、JVM 的内存区域5、字符串你了解吗?6、String 不可变的好处7、StringBuffer、StringBuilder 有什么区别?为什么会有那些?8、Java 的类加载机制9、委派机制,双亲委派机制可以被破坏吗?10、三次握手四次挥手了解吗?11、TCP 的特性?12、Redis 数据结构13、Redis如果挂了会怎么样,redis持久化14、常用的一些 Redis 集群,用哪种形式做持久化?为什么?15、持久化数据恢复慢,该怎么办?手撕:力扣200. 岛屿数量(完成)反问:面试表现二面(50min):1、自我介绍2、实习期间哪些技术挑战或者是问题?因为我实习期间用的每日学习过的全响应式框架编程,因此围绕此方面学习说的3、实习期间做的设计分布式 ID生成是怎么做的,为什么这么做4、如果用分布式redis去生成id的话,会不会存在什么问题?5、实习期间实现的实时性和高效性体现在哪些方面?6、非关系型数据库和关系型数据库的差别7、redis持久化8、AOF 的优点以及持久化过程9、介绍 Redis 里这个 list,为什么要采用压缩列表和链表10、循序引导,压缩列表和链表的优缺点,底层为什么这么设计11、慢 SQL12、分库分表的策略手撕:力扣3. 无重复字符的最长子串(完成)反问:面试表现三面(40min):比较有压力1、自我介绍2、实习问答(做的一些功能是如何实现的,是怎么考虑的,占了很多时间)3、场景题:问:短链接怎么实现?问:为何用redis不用MySQL ?4、Redis 常见的数据结构5、MySQL 索引失效的那个场景手撕:全排列,字母版,可能有重复字母(回溯,做出来之后被提醒没考虑重复字母,回答改为使用Set,但没让修改)反问:面试表现、业务25号面的,目前官网状态还是面试考察中,请问大家有没有有进入下一步流程的
天行健:更多高频面试题可以访问:https://m.nowcoder.com/mianshi/top
查看30道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务