上亿数量的链接,如何找出点击量排名前十的链接?
参考回答:
思路:trie树+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统计,外排序。
遍历文件,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题