这是一面面试官 问我的面试题,我发来交流一下

说有一个网站的日志文件,里面存放有许多IP(数量在1亿个以上),现在让用统计一下哪个IP访问的次数最多。(这个阿里hadoop,Map-Reduce方面的面试题)#阿里巴巴#
全部评论
这属于典型的top k问题吧,海量数据处理 先取余映射成好多段,然后hashmap 统计每段top1 ,最后来一次堆排。 分治思想
点赞
送花
回复
分享
发布于 2015-08-29 22:35
分而治之,
点赞
送花
回复
分享
发布于 2015-08-29 22:55
秋招专场
校招火热招聘中
官网直投
1. 内存如果装得下,partation 2、内存装不下,双层桶
点赞
送花
回复
分享
发布于 2015-09-14 20:15

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务