首页
题库
面试
求职
课程
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
给定a,b两个文件,各存放50亿个url,每个url各占64
[问答题]
给定a,b两个文件,各存放50亿个url,每个url各占64个字节,内存限制是4G,让你找出a,b文件共同的url。
添加笔记
求解答(20)
邀请回答
收藏(13)
分享
纠错
3个回答
添加回答
1
韩玉
散列映射+hashset统计
1)散列映射
将文件a通过散列映射分为若干个小文件,如1000个,则文件为a0,a1...a999。
同理对b进行同样操作,得到文件b
0,b1...b999,只需要查找ai-bi(i=0,1...,999)共同url即可
2)
hashset统计
可将一个文件中URL存储到
hashset,遍历另一个文件查看是存在url即可。
发表于 2016-09-06 19:25:50
回复(0)
0
Centos
用布隆过滤器的知识解答
发表于 2016-09-06 22:24:47
回复(2)
0
牛客352991号
mapreduce+trie树可解否?
发表于 2016-09-06 15:07:02
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
海量数据
欢聚集团
上传者:
小牧魔法袋
难度:
3条回答
13收藏
11148浏览
热门推荐
相关试题
给40亿个不重复的unsigned...
腾讯
海量数据
评论
(1)
一个文件记录中有50M个URL, ...
查找
海量数据
评论
(2)
有10个文件,每个文件1G,每个文...
美团
排序
海量数据
评论
(4)
关于进程的状态和状态转换,下列哪一...
操作系统
评论
(1)
细胞周期中属于DNA合成期的是:
细胞生物学
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题