首页 > 试题广场 >

给定a,b两个文件,各存放50亿个url,每个url各占64

[问答题]
给定a,b两个文件,各存放50亿个url,每个url各占64个字节,内存限制是4G,让你找出a,b文件共同的url。
散列映射+hashset统计
1)散列映射
    将文件a通过散列映射分为若干个小文件,如1000个,则文件为a0,a1...a999。
    同理对b进行同样操作,得到文件b0,b1...b999,只需要查找ai-bi(i=0,1...,999)共同url即可
2)hashset统计
    可将一个文件中URL存储到 hashset,遍历另一个文件查看是存在url即可。
发表于 2016-09-06 19:25:50 回复(0)
用布隆过滤器的知识解答
发表于 2016-09-06 22:24:47 回复(2)
mapreduce+trie树可解否?
发表于 2016-09-06 15:07:02 回复(0)