牛客8028856号

2017-08-13 20:01 北京理工大学

关注

找到100亿个URL中重复的URL？求最优解

1、给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL？

2、找到100亿个URL中重复的URL？

全部评论

推荐最新楼层

带着小板凳写代码

合肥工业大学 Java

第一题：50亿*64B约320g，内存限制4g，所以，用一个hash函数把A文件中的url分到1000个小文件中去，把url通过hash后的值当做文件名，然后B文件也用同样的hash函数去分到1000个小文件中，这样寻找的时候，按照同名的文件从AB两个文件中去找重复（相同的url肯定分在相同文件名的小文件找那个），这样的话内存肯定能满足。第二题，类似也是用hash去处理，重复的url肯定会分到同一个文件中去，接下来就是找重复的就是了

12 回复分享

发布于 2017-08-13 20:29

电子科技大学 Java

布隆过滤

点赞回复分享

发布于 2017-08-14 08:41

hash过滤掉重复的，然后比对

点赞回复分享

发布于 2017-08-13 21:41

腾讯_天美_研发工程师(准入职)

我觉得应该是用布隆过滤器，不过缺点是存在一定错误率

点赞回复分享

发布于 2017-08-13 20:39

南京航空航天大学 C++

B文件哈希成300个小文件，这个过程中去重，只保留不同的url。然后流式读入A文件的url，根据之前哈希函数来比对，是重复的就保留结果。差不多就这个套路吧，至于哈希函数可以md5之类的，然后再用普通的字符串哈希函数来计算出个数字来除余？？我对这个全靠yy，根本没有做过

点赞回复分享

发布于 2017-08-13 20:06

西南财经大学

hssh分片？

点赞回复分享

发布于 2017-08-13 20:06

不愿透露姓名的神秘牛友

09-16 22:14

字节跳动番茄秋招后端开发，拷打计算机网络

1. 看你写到峰值qps有70w，那你观察过具体的资源数量吗2. map的使用场景，什么时候用hashmap什么时候用treemap3. arraylist 和 linkedlist的使用场景4. 既然想找到一个特定值都需要遍历，那为啥用arraylist不用linkedlist5. 网络层有哪些常用协议6. 说一说ip数据包传输过程中头部哪些字段会发生变化a. 指引下说出了nat协议 私网ip转换公网ip 所以传播过程中ip地址其实会变化b. TTL字段 → 牵扯到了tcp三次握手里面的MSL大小，刚好满足64次TTL过期才行c. Identification，Flags ，Fragment...

查看10道真题和解析

点赞评论收藏

分享

08-28 12:08

华北电力大学（北京） C++

海光软开今年hc巨多，要收2000份简历

领导说今年要狠狠扩招，一共要收2000份简历，还会线下组织宣讲和面试，感觉线下面试体验还是好一点，一轮技术面，当天就能走完流程

点赞评论收藏

分享

09-20 19:34

已编辑

门头沟学院 Java

字节业务中台

Redisson的底层是如何实现的?redis中可以怎么实现分布式锁?setNx和Redisson的区别?进程、线程的调度从磁盘中取文件的过程?虚拟线程了解吗?Redis的内存淘汰策略?Redis里面的LRU是如何实现的呢? 算法给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL？leetcode 127 单词接龙(hard)

查看9道真题和解析

点赞评论收藏

分享

09-18 18:35

门头沟学院自动化测试

民办鼠鼠秋招求助

投武汉80多份简历，0面试。求佬指点！

点赞评论收藏

分享

09-15 17:23

已编辑

南京农业大学 golang

字节-业务中台一二面（已挂）

挂的原因大抵是基础知识没答好，有些OS和网络的八股很久没看，答得比较差😔，手撕倒是问题不大。一面 70min介绍实习golang协程；为什么协程的上下文切换快；线程调度从磁盘读取文件的过程；怎么在磁盘中查找文件数据库事务MySQL事务隔离级别为什么设计这些隔离级别什么是幻读具体怎么避免幻读当前读和普通读的区别场景题：在内存限制为4GB的情况下，处理两个包含50亿URL的大文件，每个URL占64字节。找出公共的URL。手撕：leetcode 127 单词接龙（顶着压力撕了这道hard，用了朴素建图+bfs，不是最优解）二面 40min介绍实习TCP四次挥手；CLOSE_WAIT和TIME_WA...

点赞评论收藏

分享

评论

点赞

35

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 国庆后，我的返工状态 #

8682次浏览 43人参与

# 求职你最看重什么？ #

95932次浏览 554人参与

# 深信服秋招来了 #

276306次浏览 2908人参与

# 一觉醒来，穿越回国庆前 #

16746次浏览 73人参与

# 非技术岗简历怎么写 #

246715次浏览 3045人参与

# 找工作有哪些冷知识 #

152641次浏览 2400人参与

# 爱玛科技集团求职进展汇总 #

5450次浏览 85人参与

# 薪资爆料 #

162008次浏览 1348人参与

# 秋招OC许愿 #

363610次浏览 2593人参与

# 今年秋招还有金九银十吗 #

9046次浏览 51人参与

# 春招你拿到offer了吗 #

734038次浏览 9693人参与

# 机械/汽车制造公司岗位评价 #

13701次浏览 100人参与

# 央国企投递记录 #

115619次浏览 1480人参与

# 锐捷网络求职进展汇总 #

4944次浏览 24人参与

# 腾讯音乐求职进展汇总 #

129163次浏览 967人参与

# 美团秋招笔试 #

164943次浏览 958人参与

# 工作经验重要还是工资重要？ #

143591次浏览 1093人参与

# 26届秋招投递记录 #

37152次浏览 429人参与

# 生活已被工作填满，要不要辞职？ #

17945次浏览 101人参与

# 你收到了团子的OC了吗 #

1429129次浏览 11786人参与

# 运营每日一题 #

101619次浏览 851人参与

# 面试吐槽bot #

139838次浏览 749人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务