首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
牛客8028856号
2017-08-13 20:01
北京理工大学
关注
已关注
取消关注
找到100亿个URL中重复的URL?求最优解
1、给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL?
2、
找到100亿个URL中重复的URL?
提示
全部评论
推荐
最新
楼层
带着小板凳写代码
合肥工业大学 Java
第一题:50亿*64B约320g,内存限制4g,所以,用一个hash函数把A文件中的url分到1000个小文件中去,把url通过hash后的值当做文件名,然后B文件也用同样的hash函数去分到1000个小文件中,这样寻找的时候,按照同名的文件从AB两个文件中去找重复(相同的url肯定分在相同文件名的小文件找那个),这样的话内存肯定能满足。 第二题,类似也是用hash去处理,重复的url肯定会分到同一个文件中去,接下来就是找重复的就是了
12
回复
分享
发布于 2017-08-13 20:29
baby_lorin
电子科技大学 Java
布隆过滤
点赞
回复
分享
发布于 2017-08-14 08:41
已删除
hash过滤掉重复的,然后比对
点赞
回复
分享
发布于 2017-08-13 21:41
=..=
腾讯_天美_研发工程师(准入职)
我觉得应该是用布隆过滤器,不过缺点是存在一定错误率
点赞
回复
分享
发布于 2017-08-13 20:39
swananan
南京航空航天大学 C++
B文件哈希成300个小文件,这个过程中去重,只保留不同的url。 然后流式读入A文件的url,根据之前哈希函数来比对,是重复的就保留结果。 差不多就这个套路吧,至于哈希函数可以md5之类的,然后再用普通的字符串哈希函数来计算出个数字来除余?? 我对这个全靠yy,根本没有做过
点赞
回复
分享
发布于 2017-08-13 20:06
阿哈哈
西南财经大学
hssh分片?
点赞
回复
分享
发布于 2017-08-13 20:06
暂无评论,快来抢首评~
相关推荐
不愿透露姓名的神秘牛友
09-16 22:14
字节跳动番茄秋招后端开发,拷打计算机网络
1. 看你写到峰值qps有70w,那你观察过具体的资源数量吗2. map的使用场景,什么时候用hashmap什么时候用treemap3. arraylist 和 linkedlist的使用场景4. 既然想找到一个特定值都需要遍历,那为啥用arraylist不用linkedlist5. 网络层有哪些常用协议6. 说一说ip数据包传输过程中头部哪些字段会发生变化a. 指引下说出了nat协议 私网ip转换公网ip 所以传播过程中ip地址其实会变化b. TTL字段 → 牵扯到了tcp三次握手里面的MSL大小,刚好满足64次TTL过期才行c. Identification,Flags ,Fragment...
查看10道真题和解析
点赞
评论
收藏
分享
08-28 12:08
华北电力大学(北京) C++
海光软开今年hc巨多,要收2000份简历
领导说今年要狠狠扩招,一共要收2000份简历,还会线下组织宣讲和面试,感觉线下面试体验还是好一点,一轮技术面,当天就能走完流程
点赞
评论
收藏
分享
09-20 19:34
已编辑
门头沟学院 Java
字节业务中台
Redisson的底层是如何实现的?redis中可以怎么实现分布式锁?setNx和Redisson的区别?进程、线程的调度从磁盘中取文件的过程?虚拟线程了解吗?Redis的内存淘汰策略?Redis里面的LRU是如何实现的呢? 算法给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL?leetcode 127 单词接龙(hard)
查看9道真题和解析
点赞
评论
收藏
分享
09-18 18:35
门头沟学院 自动化测试
民办鼠鼠秋招求助
投武汉80多份简历,0面试。求佬指点!
点赞
评论
收藏
分享
09-15 17:23
已编辑
南京农业大学 golang
字节-业务中台一二面(已挂)
挂的原因大抵是基础知识没答好,有些OS和网络的八股很久没看,答得比较差😔,手撕倒是问题不大。一面 70min介绍实习golang协程;为什么协程的上下文切换快;线程调度从磁盘读取文件的过程;怎么在磁盘中查找文件数据库事务MySQL事务隔离级别为什么设计这些隔离级别什么是幻读具体怎么避免幻读当前读和普通读的区别场景题:在内存限制为4GB的情况下,处理两个包含50亿URL的大文件,每个URL占64字节。找出公共的URL。手撕:leetcode 127 单词接龙(顶着压力撕了这道hard,用了朴素建图+bfs,不是最优解)二面 40min介绍实习TCP四次挥手;CLOSE_WAIT和TIME_WA...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
35
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
JVM调优
1.3W
2
...
前端面试,八股怎么准备?(附速通版)
3650
3
...
双非秋招记录(下)
3494
4
...
分享一个很友好的公司
3454
5
...
就这样上班一年了,选对公司跟选对人是一样的。。
3212
6
...
国庆有感 测开劝退
3080
7
...
华为OD备考建议—算法篇
2185
8
...
10.9 荣耀通软一面
2109
9
...
实习生放了八天假
1878
10
...
测开这条路很伟大 又拿下一家
1760
创作者周榜
更多
正在热议
更多
#
国庆后,我的返工状态
#
8682次浏览
43人参与
#
求职你最看重什么?
#
95932次浏览
554人参与
#
深信服秋招来了
#
276306次浏览
2908人参与
#
一觉醒来,穿越回国庆前
#
16746次浏览
73人参与
#
非技术岗简历怎么写
#
246715次浏览
3045人参与
#
找工作有哪些冷知识
#
152641次浏览
2400人参与
#
爱玛科技集团求职进展汇总
#
5450次浏览
85人参与
#
薪资爆料
#
162008次浏览
1348人参与
#
秋招OC许愿
#
363610次浏览
2593人参与
#
今年秋招还有金九银十吗
#
9046次浏览
51人参与
#
春招你拿到offer了吗
#
734038次浏览
9693人参与
#
机械/汽车制造公司岗位评价
#
13701次浏览
100人参与
#
央国企投递记录
#
115619次浏览
1480人参与
#
锐捷网络求职进展汇总
#
4944次浏览
24人参与
#
腾讯音乐求职进展汇总
#
129163次浏览
967人参与
#
美团秋招笔试
#
164943次浏览
958人参与
#
工作经验重要还是工资重要?
#
143591次浏览
1093人参与
#
26届秋招投递记录
#
37152次浏览
429人参与
#
生活已被工作填满,要不要辞职?
#
17945次浏览
101人参与
#
你收到了团子的OC了吗
#
1429129次浏览
11786人参与
#
运营每日一题
#
101619次浏览
851人参与
#
面试吐槽bot
#
139838次浏览
749人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务