Hive专项练习 7

  1. 外部表不会加载到Hive的默认仓库(挂载数据)
  • 减少数据的传输
  • 还能和其他外部表共享数据,使得数据管理更加灵活和高效。数据共享的效果:
    • 任何对底层HDFS路径中的数据的修改,都会立即反映在这两个外部表上,因为它们共享相同的数据。
    • 如果数据被删除或移动,任何查询这两个表的尝试都会反映出数据的变更。
    • 由于数据是共享的,因此不需要担心数据冗余或同步问题。
CREATE EXTERNAL TABLE IF NOT EXISTS my_external_table (
    column1 STRING,
    column2 INT,
    ...
)
LOCATION 'hdfs://path/to/data';

CREATE EXTERNAL TABLE IF NOT EXISTS another_external_table (
    column1 STRING,
    column2 INT,
    ...
)
LOCATION 'hdfs://path/to/data';

-- my_external_table和another_external_table
-- 两个外部表都指向了相同的HDFS路径,它们共享底层的文件数据

  1. Hive存储格式
  • ORC格式是Hive 0.11版本以后才支持
  • RCFile是ORC的前身;是一种行列存储相结合的存储方式,行存为块,块为列存相结合
  • Parquet默认使用 Snappy 压缩格式;对于大型查询是高效的,对于扫描表格中的特定列的查询特别有用
  1. Hive 特性
  • 为了数据仓库而设计
  • 迭代式算法无法表达
  • 数据挖掘方面不擅长
  • 分布式拓展能力强,适合高吞吐量、批量、海量数据处理
  • Hive计算框架基于MapReduce框架衍生而来,是一种单机工具,不属于MapReduce分布式框架
  • Hive SQL作业具有高容错性:即使节点出现问题,仍然可以成功运行
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

亲爱滴达瓦里氏:又有嵌软又有FPGA又有硬件的,三个方向显得你的简历太杂糅了,展示不出你在某一个方向有哪些技术栈。基本上也不会有企业会去招一个本科的全栈工程师。HR一般是看你的技术栈是否和招聘要求匹配才发面试的。如果你想三个方向都试试的话还是建议你分成三份不同的简历根据不同岗位来投。多看看****或牛客上面的招聘信息,根据上面要求的技术栈来写简历。看了你的帖子经历这一块还是过关的,不过看的每个方向都会一点,但每个方向优势都不突出。 还有就是要海投,你这才几十份算不了啥。去年投了一两百份的大有人在。多去跑跑线下招聘吧,有机会继续搞份实习,后面转正机会大些。有条件就多往北上广深投吧。武汉竞争还是太激烈了。
我的秋招日记
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务