我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬了大约50亿个URL,分别存放在A、B两个文件中,其中每个URL的平均大小大约64字节。
现在你手头只有一台电脑,配置有足够的硬盘但剩余可用内存只有4GB,请设计一种可行的方法,找出A、B两个文件中都出现的URL并将他们输出到一个新的文件C中。请写出设计思路和要点。(提示:50亿*64B = 320GB 远大于 4GB)
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题