全部评论
如果总的单词数不是10万,而是百亿的数据量,那么最开始得用哈希分流的思路来处理。
闲的无聊,再写写吧, 为什么要用小根堆呢?其实是因为我们要维护堆的大小为100,所以每当有一个新的单词的count足够大,其实比小根堆堆顶的count大就行了,以至于我们能够插入它的时候,那么我们应该在原先的100个单词中删除对应的count最小的单词,如果用小根堆,我们就可以直接删除堆顶元素。然后插入新的单词。
哈希表,key是单词,value是计数
某个单词的count指的是对应单词出现的次数
最后,遍历完哈希表的时候,我们就可以得到最后的答案
然后用小根堆或外排序
很简单,spark并行化处理
使用小顶堆即可
用堆排序
堆,还有快排
相关推荐
点赞 评论 收藏
分享


海口当伍网络科技有限公司
| 实习
| 39个岗位
点赞 评论 收藏
分享

点赞 评论 收藏
分享