232

问答题 232 /393

上亿数量的链接,如何找出点击量排名前十的链接?

参考答案

参考回答:

分两种情况:可一次读入内存,不可一次读入。

思路:trie树+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统计,外排序。

遍历文件,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。