首页 > 试题广场 >

海量日志数据,提取出某日访问百度次数最多的那个IP。

[问答题]
海量日志数据,提取出某日访问百度次数最多的那个IP。
推荐
atp头像 atp

IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。
可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。
对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。
有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

编辑于 2015-02-07 16:37:24 回复(6)
海量数据只能通过hash先分段了,再归并。 每个段里再通过hash统计数量,求最大值。
发表于 2014-10-10 10:36:28 回复(0)