2022-06-23 20:35 字节跳动_算法工程师

关注

【Java八股-第二十期】海量数据处理 - 操作系统

提纲：

🔥海量数据处理

前缀树Trie

分治归并

Bloom Filter

Bit Map

一、海量数据处理

1. 前缀树 Trie

Q：有 xx 个文件存储了 xx 个 query 语句，取出出现次数前 k 高的语句
A：query 语句，是一种重复率很高的字符串类型，并且不同的 query 语句也可能有相同的前缀，对于这类数据（还有手机号码，英语单词）等，可以采用 Trie 前缀树来进行存储，然后使用大根堆 PriorityQueue，遍历 Trie时取出最多的元素

2.分治归并

Q：有（多个文件）海量的 xxx 数据，统计出现次数前 k 多的 xxx
A：可以采用分治归并，将海量数据按 HashCode % 1024 分别存储到 1024 个小文件中，
再从每个小文件中选出出现次数前 k 多的数据，最后再归并，从这 1024 * k 个数据中找出前 k 多的数据
- #不一定是 1024，按实际需求算
- #计算 HashCode 方法主要有平方取中/位移叠加（jdk的 String）/全随机，但要保证能够均匀哈希
- #可以分批归并
Q：有两个文件，各存储了海量的 xxx 数据，要求取出两个文件中相同的数据
A：可以采用分支归并，将 A 的数据按 HashCode % 1024 分别存储至 a0...ai...a1024，按同样的哈希算法，将 B 的数据分治，再分别比较 a0 与 b0，ai 与 bi，最后将比较得到

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

代码鹿のJAVA八股面试题总结文章被收录于专栏

【📫专栏目录在最底部📫】 - 本专栏适合于JAVA已经入门的学生或人士，有一定的编程基础。 - 本专栏特点：本专刊囊括了JAVA、Spring、计算机网路、操作系统、计算机网络、MySQL、算法与数据结构、中间件等一系列知识点，总结出了高频面试考点（附有答案），事半功倍，为大家春秋招助力。 - 本专栏内容分为五章

全部评论

推荐最新楼层

牛客125210495号

长安大学 Java

最后的BitMap有点问题吧？ 84亿个bit位，一个数占用2bit,如何存储250亿个数的。。。

点赞回复分享

发布于 2022-07-24 16:12

昨天 21:08

已编辑

北京石油化工学院后端

一个再平凡不过的25届求职纪闻录，都是血淋淋的现实（上）

背景双非本 计算机科学与技术QS前100 一学期交换生211硕 软件工程求职历程2024年2月25日 - 6月28日 暑期实习阶段2024年8月1日 - 12月13日 秋招阶段2025年3月18日 - 5月7日 春招阶段战斗总结暑期实习 投递35家公司 2Offer 2面试 5笔试秋招 投递68家公司 1Offer 5面试 28笔试（产品/项目方向投递16家）春招 投递20家公司 0Offer 2面试 5笔试投递记录暑期实习此时刚刚帮老板写完本子，才知暑期实习很多公司早开了；对未来仍然充满希望，对就业环境毫无认知，投递的大多为算法岗2024年2月25日 微软投递 软件工程实习生（研一入学时的梦...

鼠鼠的败者录牛客激励计划牛客创作赏金赛

点赞评论收藏

分享

05-07 23:38

已编辑

中山大学 Java

瓴羊一二面经

一面自我介绍项目介绍项目整体架构设计JWT 流程为什么用 JWT Token，而不是 SessionThreadLocal 作用以及使用上的注意点，继承订单防重做法商品热点数据如何筛选和维护爆品商品买卖如何保证用户体验 分布式锁数据库和 Redis 连接池IO多路复用有创建线程的方法？如何从线程里结果给到外部AOP介绍AOP在Spring里的例子transitional注解失效情况 有没有用过AI了不了解MCP？MCP设计的核心是什么二面自我介绍讲解论文对AI的了解项目拷打项目过程中遇到的最大障碍为什么想来这里实习Timeline投递（4.6），笔试（4.20），一面（4.23），二面（4.2...

查看22道真题和解析

点赞评论收藏

分享

04-08 17:05

中国石油大学（华东） Python

感觉实习太简单

这份实习offer也太好拿了吧😥虽然我没有细学前端，但是JavaScript和css学会不是很容易嘛。感觉随随便便就可以进了。是不是有什么套路呀，进去之后好比坐牢😅

程序员牛肉：一句话：天上不会掉馅饼

点赞评论收藏

分享

05-07 13:29

已编辑

门头沟学院 Java

26届暑期实习简历求大佬拷打

bg：双非一本至今 0 大厂面试，基本都被挂简历了，美团腾讯京东也不给面b站做完笔试一直没动静Boss 上找小厂倒是有人理我，能约到小厂面试。是哪里的问题呢要换个轮子项目吗#简历被挂麻了，求建议#

北斗导航Compass低仿版：能不能先搞清楚优先级啊，怎么可能是项目问题，项目很重要吗？又没学历又没实习大厂凭啥约面？那玩具项目没应用在真实生产环境下的就算做上天又有什么用？早点找个小公司实习拿小公司实习去投大厂实习，这才是你现在该做的

投递美团等公司10个岗位简历被挂麻了，求建议

点赞评论收藏

分享

05-06 15:30

兰州大学大数据开发工程师

字节HR主动加微信

有一个字节的HR突然来加我，我之前确实投了字节的简历，但是不是这个部门的，据说是从池子里捞的简历，来联系我进行面试，我问没有笔试测评吗，他说在面试环节里会有手撕环节，我还挺慌的，不知道这个靠不靠谱，感觉准备的也不是很好，听说字节会脏面评，这到底是啥情况啊

在打卡的马里奥很喜欢走神：字节不知道怎么回事，经常有完全不相关的业务给你拉进面试然后脏面评

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 面试问题记录 #

21353次浏览 353人参与

# 面试经验谈 #

13852次浏览 209人参与

29156次浏览 151人参与

# 职场新人生存指南 #

333616次浏览 7153人参与

# 面试吐槽bot #

2700次浏览 34人参与

# 异地恋该为对方跳槽吗 #

24172次浏览 120人参与

# 硬件人更看重稳定还是高薪 #

39324次浏览 204人参与

# 机械求职避坑tips #

41465次浏览 355人参与

# 租房找室友 #

28165次浏览 147人参与

# 硬件人秋招的第一个offer #

66012次浏览 1082人参与

# 滴滴工作体验 #

23735次浏览 123人参与

# 上班苦还是上学苦呢？ #

214047次浏览 1288人参与

# 不考虑转正，实习多久合适 #

24581次浏览 118人参与

# 学历or实习经历，哪个更重要 #

114409次浏览 753人参与

# 硬件人你反向读研了吗 #

40247次浏览 608人参与

# 深信服求职进展汇总 #

188975次浏览 1694人参与

# 得物求职进展汇总 #

92738次浏览 792人参与

# 你遇到过哪些神仙同事 #

69805次浏览 623人参与

# 材料进Fab厂真的劝退吗？ #

36497次浏览 158人参与

# 机械只有转码才有出路吗？ #

125906次浏览 1590人参与

# 非技术岗投递进展 #

137592次浏览 1222人参与

牛客网
牛客企业服务