关注
刚刚看到了网上一模一样的题: 6、 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 分而治之/hash映射:遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为,这里漏写个了a1)中。这样每个小文件的大约为300M。遍历文件b,采取和a相同的方式将url分别存储到1000小文件中(记为)。这样处理后,所有可能相同的url都在对应的小文件()中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。 hash_set统计:求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。
查看原帖
点赞 评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
05-07 19:59
武汉理工大学 Web前端 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 牛油的搬砖plog #
10657次浏览 57人参与
# 实习学不到东西怎么办? #
197968次浏览 2054人参与
# 京东TGT #
60148次浏览 197人参与
# 一人一个landing小技巧 #
11031次浏览 204人参与
# 跳槽时有那些注意事项 #
83434次浏览 523人参与
# 面试问题记录 #
90209次浏览 1265人参与
# 应届生初入职场,求建议 #
192183次浏览 2512人参与
# 安利/避雷我的专业 #
69518次浏览 502人参与
# 选完offer后,你后悔学本专业吗 #
41142次浏览 221人参与
# 市场营销人求职交流聚集地 #
112513次浏览 1011人参与
# 被AI治愈的瞬间 #
18953次浏览 335人参与
# 科大讯飞求职进展汇总 #
278865次浏览 2713人参与
# 我心目中的理想工作是这样的 #
58694次浏览 795人参与
# 找工作的破防时刻 #
6772次浏览 74人参与
# 工作中,你有没有遇到非常爱骂人的领导? #
24434次浏览 152人参与
# 实习生应该准时下班吗 #
207994次浏览 1347人参与
# 华子oc时间线 #
1178408次浏览 6213人参与
# 求职季如何保持心态不崩 #
113218次浏览 938人参与
# 面试经验谈 #
66138次浏览 1105人参与
# 拼多多工作体验 #
19979次浏览 154人参与
# 技术转行的心路历程 #
50718次浏览 665人参与