这是一面面试官 问我的面试题,我发来交流一下

说有一个网站的日志文件,里面存放有许多IP(数量在1亿个以上),现在让用统计一下哪个IP访问的次数最多。(这个阿里hadoop,Map-Reduce方面的面试题)#阿里巴巴#
全部评论
这属于典型的top k问题吧,海量数据处理 先取余映射成好多段,然后hashmap 统计每段top1 ,最后来一次堆排。 分治思想
点赞 回复 分享
发布于 2015-08-29 22:35
1. 内存如果装得下,partation 2、内存装不下,双层桶
点赞 回复 分享
发布于 2015-09-14 20:15
分而治之,
点赞 回复 分享
发布于 2015-08-29 22:55

相关推荐

昨天 17:48
门头沟学院 营销
但我还是会继续秋招的
投递京东等公司10个岗位
点赞 评论 收藏
分享
码砖:求职岗位要突出,一眼就能看到,教育背景放到最后,学校经历没那么重要,项目要重点突出
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务