全部评论
如果总的单词数不是10万,而是百亿的数据量,那么最开始得用哈希分流的思路来处理。
闲的无聊,再写写吧, 为什么要用小根堆呢?其实是因为我们要维护堆的大小为100,所以每当有一个新的单词的count足够大,其实比小根堆堆顶的count大就行了,以至于我们能够插入它的时候,那么我们应该在原先的100个单词中删除对应的count最小的单词,如果用小根堆,我们就可以直接删除堆顶元素。然后插入新的单词。
哈希表,key是单词,value是计数
某个单词的count指的是对应单词出现的次数
最后,遍历完哈希表的时候,我们就可以得到最后的答案
然后用小根堆或外排序
很简单,spark并行化处理
使用小顶堆即可
用堆排序
堆,还有快排
相关推荐
点赞 评论 收藏
分享
03-24 10:25
南京信息工程大学 嵌入式工程师 投票
这些sm私企真够逆天的,都春招了让我再去实习,那我到底还找不找工作,在你们公司工位上一边实习一边面试吗?实习完你要是不给转正,那我不白实习了。又想吃应届生红利,又想压榨每一个应届生,sm私企真够逆天的
点赞 评论 收藏
分享

点赞 评论 收藏
分享