首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客8028856号
2017-08-13 20:01
北京理工大学
关注
已关注
取消关注
找到100亿个URL中重复的URL?求最优解
1、给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL?
2、
找到100亿个URL中重复的URL?
提示
全部评论
推荐
最新
楼层
带着小板凳写代码
合肥工业大学 Java
第一题:50亿*64B约320g,内存限制4g,所以,用一个hash函数把A文件中的url分到1000个小文件中去,把url通过hash后的值当做文件名,然后B文件也用同样的hash函数去分到1000个小文件中,这样寻找的时候,按照同名的文件从AB两个文件中去找重复(相同的url肯定分在相同文件名的小文件找那个),这样的话内存肯定能满足。 第二题,类似也是用hash去处理,重复的url肯定会分到同一个文件中去,接下来就是找重复的就是了
12
回复
分享
发布于 2017-08-13 20:29
baby_lorin
电子科技大学 Java
布隆过滤
点赞
回复
分享
发布于 2017-08-14 08:41
已删除
hash过滤掉重复的,然后比对
点赞
回复
分享
发布于 2017-08-13 21:41
=..=
腾讯_天美_研发工程师(准入职)
我觉得应该是用布隆过滤器,不过缺点是存在一定错误率
点赞
回复
分享
发布于 2017-08-13 20:39
swananan
南京航空航天大学 C++
B文件哈希成300个小文件,这个过程中去重,只保留不同的url。 然后流式读入A文件的url,根据之前哈希函数来比对,是重复的就保留结果。 差不多就这个套路吧,至于哈希函数可以md5之类的,然后再用普通的字符串哈希函数来计算出个数字来除余?? 我对这个全靠yy,根本没有做过
点赞
回复
分享
发布于 2017-08-13 20:06
阿哈哈
西南财经大学
hssh分片?
点赞
回复
分享
发布于 2017-08-13 20:06
暂无评论,快来抢首评~
相关推荐
不愿透露姓名的神秘牛友
09-16 22:14
字节跳动番茄秋招后端开发,拷打计算机网络
1. 看你写到峰值qps有70w,那你观察过具体的资源数量吗2. map的使用场景,什么时候用hashmap什么时候用treemap3. arraylist 和 linkedlist的使用场景4. 既然想找到一个特定值都需要遍历,那为啥用arraylist不用linkedlist5. 网络层有哪些常用协议6. 说一说ip数据包传输过程中头部哪些字段会发生变化a. 指引下说出了nat协议 私网ip转换公网ip 所以传播过程中ip地址其实会变化b. TTL字段 → 牵扯到了tcp三次握手里面的MSL大小,刚好满足64次TTL过期才行c. Identification,Flags ,Fragment...
查看10道真题和解析
点赞
评论
收藏
分享
08-28 12:08
华北电力大学(北京) C++
海光软开今年hc巨多,要收2000份简历
领导说今年要狠狠扩招,一共要收2000份简历,还会线下组织宣讲和面试,感觉线下面试体验还是好一点,一轮技术面,当天就能走完流程
点赞
评论
收藏
分享
09-20 19:34
已编辑
门头沟学院 Java
字节业务中台
Redisson的底层是如何实现的?redis中可以怎么实现分布式锁?setNx和Redisson的区别?进程、线程的调度从磁盘中取文件的过程?虚拟线程了解吗?Redis的内存淘汰策略?Redis里面的LRU是如何实现的呢? 算法给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL?leetcode 127 单词接龙(hard)
查看9道真题和解析
点赞
评论
收藏
分享
09-18 18:35
门头沟学院 自动化测试
民办鼠鼠秋招求助
投武汉80多份简历,0面试。求佬指点!
点赞
评论
收藏
分享
09-15 17:23
已编辑
南京农业大学 golang
字节-业务中台一二面(已挂)
挂的原因大抵是基础知识没答好,有些OS和网络的八股很久没看,答得比较差😔,手撕倒是问题不大。一面 70min介绍实习golang协程;为什么协程的上下文切换快;线程调度从磁盘读取文件的过程;怎么在磁盘中查找文件数据库事务MySQL事务隔离级别为什么设计这些隔离级别什么是幻读具体怎么避免幻读当前读和普通读的区别场景题:在内存限制为4GB的情况下,处理两个包含50亿URL的大文件,每个URL占64字节。找出公共的URL。手撕:leetcode 127 单词接龙(顶着压力撕了这道hard,用了朴素建图+bfs,不是最优解)二面 40min介绍实习TCP四次挥手;CLOSE_WAIT和TIME_WA...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
35
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
如何委婉地拒绝offer
8912
2
...
HR面,到底该准备些啥(附核心问题回答思路)
8912
3
...
恒生电子笔试交流
2542
4
...
分享一个很友好的公司
2387
5
...
零基础转前端五个月拿下美团offer
1759
6
...
绿盟 安全工程师
1536
7
...
【彻底战败】秋招11次一面挂
1442
8
...
七牛云路演
1414
9
...
中国电信笔试交流
1291
10
...
抖音电商泡一个月挂了!
1284
创作者周榜
更多
正在热议
更多
#
国庆后,我的返工状态
#
15936次浏览
83人参与
#
谈薪时HR压价该怎么应对
#
226603次浏览
3232人参与
#
爱玛科技集团求职进展汇总
#
19255次浏览
164人参与
#
什么专业适合考公
#
40955次浏览
243人参与
#
机械制造岗投递时间线
#
31152次浏览
379人参与
#
毕业租房也有小确幸
#
138022次浏览
4480人参与
#
深信服秋招来了
#
277862次浏览
2912人参与
#
华为海思工作体验
#
27660次浏览
116人参与
#
招银网络求职进展汇总
#
154095次浏览
967人参与
#
26届秋招投递记录
#
44024次浏览
488人参与
#
央国企投递记录
#
119957次浏览
1509人参与
#
实习中的菜狗时刻
#
436683次浏览
3499人参与
#
机械校招之路总结
#
101809次浏览
2014人参与
#
电信求职进展汇总
#
17895次浏览
115人参与
#
找工作有哪些冷知识
#
158793次浏览
2444人参与
#
百度工作体验
#
266150次浏览
2105人参与
#
校招求职有谈薪空间吗
#
173077次浏览
2187人参与
#
薪资爆料
#
168350次浏览
1388人参与
#
深信服提前批进度交流
#
93679次浏览
678人参与
#
腾讯音乐求职进展汇总
#
130800次浏览
990人参与
#
找工作前vs找工作后的心路变化
#
24433次浏览
207人参与
#
毕业季,你想好怎么跟生活对线了吗?
#
249038次浏览
3821人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务