2018-08-28 22:05 门头沟学院 Java

关注

《Hadoop 实战》第七章--Hadoop I/O操作

1.I/O操作中的数据检查

      Apache的Hadoop官网上有一一个名为Sort900的具体的Hadoop配置实例，所谓Sort900就是在900台主机上对9TB的数据进行排序。一般而言，在Hadoop集群的实际应用中，主机的数目是很大的，Sort900 使用了900 台主机，而淘宝目前则使用了1100 台主机来存储他们的数据(据说计划扩充到1500台)。在这么多的主机同时运行时，你会发现主机损坏是非常常见的，这就会涉及很多程序上的预处理了。对于本章而言，就体现在Hadoop中进行数据完整性检查的重要性上。
      校验和方式是检查数据完整性的重要方式。--般会通过对比新旧校验和来确定数据情况，  如果两者不同则说明数据已经损坏。比如，在传输数据前生成了一个校验和，将数据传输到目的主机时再次计算校验和，如果两次的校验和不同，则说明数据已经损坏。或者在系统启动时计算校验和，如果其值和硬盘上已经存在的校验和不同，那么也说明数据已经损坏。校验和不能恢复数据，只能检测错误。
      Hadoop采用CRC-32 (Cyclic Redundancy Check---循环冗余校验，32指生成的校验和是32位的)的方式检查数据完整性。这是一种非常常见的校验和验证方式，检错能力强，开销小，易于实现。

2.数据的I/O中序列化操作

      序列化是将对象转化为字节流的方法，或者说用字节流描述对象的方法。与序列化相对的是反序列化，反序列化是将字节流转化为对象的方法。序列化有两个目的:
      1)进程间通信;
      2)数据持久性存储。
      Hadoop采用RPC来实现进程间通信。一般而言， RPC的序列化机制有以下特点:1)紧凑:紧凑的格式可以充分利用带宽，加快传输速度;
      2)快速:能减少序列化和反序列化的开销，  这会有效地减少进程间通信的时间;
      3)可扩展:可以逐步改变，是客户端与服务器端直接相关的，例如，可以随时加人一个新的参数方法调用;
      4)互操作性:支持不同语言编写的客户端与服务器交换数据。
      Hadoop也希望数据持久性存储同样具有以上这些优点，因此它的数据序列化机制就是依照以上这些目的而设计的(或者说是希望设计成这样)。
      在Hadoop中，序列化处于核心地位。因为无论是存储文件还是在计算中传输数据，都需要执行序列化的过程。序列化与反序列化的速度，序列化后的数据大小等都会影响数据传输的速度，  以致影响计算的效率。正是因为这些原因，Hadoop并没有采用Java提供的序列化机制(Java Object Serialization),而是自己重新写了一个序列化机制Writeables。

全部评论

推荐最新楼层

05-15 17:36

大连海事大学测试开发

分享柠檬微趣2面

本人记不太清了，回忆个大概1.自我介绍2.唠嗑，测试发展上限不高，为什么选测试不选开发。公司的测试实习生主要做的工作。玩过公司什么游戏，是去官网了解的吗？3.逻辑思维题：一个三位数表示为xyz,如果x+y+z是3的倍数，怎么证明xyz是3的倍数。（简单，但本人当时大脑一片空白，请求用画图软件写了写）3.代码思路：不用split，怎么求回文字符串。答了split的实现，不是面试官想要的答案。又提示：用几个指针。最终3没答上，面试官解释了怎么做。4.hr说有个面试流程中的公司，是什么公司。如果给了offer，去哪个？-----------------------------------------...

查看8道真题和解析

点赞评论收藏

分享

05-15 17:06

门头沟学院运营

我不是恋爱脑我只是实习生

我认为实习生和mentor的关系像暗恋🥲 1️⃣mentor1小时见不到实习生就会发消息夺命连环call 2️⃣实习生会每时每刻忍不住望向mentor 3️⃣mentor的投喂会让实习生有自己很特殊的幻觉 4️⃣mentor一皱眉实习生直接丢魂 5️⃣突然接到mentor电话会心跳加速 6️⃣总会怀疑对方到底对自己是否满意 7️⃣当然是单恋

ChocBrownie0524：我是玩了很多galgame的大手子这么看我实习简直是易如反掌

点赞评论收藏

分享

03-27 13:15

已编辑

合肥工业大学宣城校区 Java

提前实习的反噬

投票

如题，目前我是大三本科在读，开学的时候找不到什么好的实习，就到了杭州的一个小厂，目前入职将近2周，基本没干什么活，我全程都在偷文档和加强八股，但是昨天接到了腾讯的offer，了解到时暑期实习，什么时候去都行，现在应该是在这个公司呆到5月，把实习时长凑到2个月，还是把这个月工资领了就润[房子租了两个月，貌似提前退房，扣押金1000 ]  

若是offer还没来：别因为这个时候的小钱，影响未来。提前实习多卷卷转正不爽吗，腾讯拿到正式 offer 可以全薪实习，一下就赚回来了

投递腾讯等公司7个岗位你的实习什么时候入职牛客创作赏金赛

点赞评论收藏

分享

03-24 21:39

已编辑

University of Toronto 自然语言处理

哈哈，先发制人

给蛙为员工干沉默了

Volatiled：对方撤回了啥呀？

点赞评论收藏

分享

今天 19:35

湖南大学运营

字节餐食不能打包带出工区，开通举报渠道

据爆料，字节深圳某工区餐饮群新发通知：后续餐饮打包可以，但食物饮料等不能带出工区。同时餐饮群也提示对于异常打包带走的人，可以进行反馈，确认后会有处罚。 字节的食堂一直是业内比较丰盛的，不仅提供各式各样的美食，还提供水果+饮料。字节之前有明确规定，餐饮刷卡，一人一份。此次通知，爆哥本人觉得是针对某些连吃带拿一大堆，一人拿够全家吃饱的个别不太守规矩的同学。

投递字节跳动等公司7个岗位 >

点赞评论收藏

分享

评论

点赞

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职总结 #

11384次浏览 205人参与

# 辞职之后最想做的一件事 #

7917次浏览 86人参与

# 毕业季，给职场新人一些建议 #

10149次浏览 197人参与

# 选offer应该考虑哪些因素 #

9360次浏览 129人参与

# 我的实习日记 #

2415545次浏览 25260人参与

# 工作后会跟朋友渐行渐远吗 #

20423次浏览 159人参与

# 你小时候最想从事什么职业 #

90004次浏览 1685人参与

# 你想留在一线还是回老家？ #

36157次浏览 438人参与

# 薪资爆料 #

101933次浏览 1038人参与

# 毕业后不工作的日子里我在做什么 #

167627次浏览 1483人参与

# 设计人如何选offer #

107987次浏览 706人参与

# 生物制药/化工校招攻略 #

42609次浏览 282人参与

# 比亚迪求职进展汇总 #

703234次浏览 3059人参与

# 第一份工作应该只看薪资吗 #

136801次浏览 1438人参与

# 你们公司哪个部门最累？ #

14205次浏览 118人参与

# 你们的毕业论文什么进度了 #

1013261次浏览 9506人参与

# 秋招想进国企该如何准备 #

56637次浏览 363人参与

# 招聘要求与实际实习内容不符怎么办 #

98138次浏览 718人参与

# 工作中的卑微时刻 #

8761次浏览 54人参与

# 大学最后一个寒假，我想…… #

35410次浏览 454人参与

牛客网
牛客企业服务