首页 > 试题广场 >

我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分

[问答题]

我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬了大约50亿个URL,分别存放在A、B两个文件中,其中每个URL的平均大小大约64字节。

现在你手头只有一台电脑,配置有足够的硬盘但剩余可用内存只有4GB,请设计一种可行的方法,找出A、B两个文件中都出现的URL并将他们输出到一个新的文件C中。请写出设计思路和要点。(提示:50亿*64B = 320GB 远大于 4GB)

1、采用hash成小文件的方式
2、允许误差下,采用布隆过滤器的方式
发表于 2020-10-10 22:10:54 回复(0)

热门推荐

相关试题