第二题(根据题意应该是a、b文件本身url都不重复,而a与b的url才会重复): 用两个2^16的bitmap分别记为bma和bmb(2^16+2^16=2^32=4G),分别与a、b文件中url的高16位想与,然后bma和bmb想与,这时的结果表示可能重复的url的高16位,再用这个结果分别过滤a、b中的url; 使用这种方法依次通过url从高到低的16位相与过滤不会重复的url,最后留下的就是重复的。
点赞 15

相关推荐

牛客10001:问就是六个月,全国可飞,给钱就干
点赞 评论 收藏
分享
牛客网
牛客企业服务