每日一题:HDFS文件存储格式有哪些?
来自百度提前批——数据研发一面
参考答案
在HDFS中,有多种文件存储格式,主要分为行式存储和列式存储两大类:
- 行式存储包括TextFile和SequenceFile,其中TextFile是最基本的格式,每一行就是一条记录,字段间用分隔符进行分隔,易于生成和解析但存储效率低,SequenceFile是一种二进制键值对的存储格式,存储效率更高,但不太适用于仅查询列的OLAP场景
- 列式存储包括ORC和Parquet,他们和SequenceFile一样都是基于二进制存储的,但是基于列式存储,更适用于OLAP分析场景,其中ORC是Hive引擎的首选,Parquet是Spark引擎的首选
大数据开发面试笔记 文章被收录于专栏
包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集