统计一个大文件里出现次数top1000的单词

统计一个大文件里出现次数top1000的单词及其出现次数,要求不用排序算法(同花顺的一道面试题)
全部评论
大文件按某种哈希算法,切割成可读进内存的小文件,保证同一单词都放到一个小文件即可,然后分别统计每个小文件中单词的出现次数。最后用一个最小堆做统计。依次分别读取这些小文件,统计出top1000 。 这样应该可行吧
6 回复 分享
发布于 2016-04-29 20:09
先用字典树统计单词出现的次数,然后遍历字典树中的单词并加入到大小为1000的最小堆中
点赞 回复 分享
发布于 2016-04-29 23:20
我就喜欢这种大数据相关的问题
点赞 回复 分享
发布于 2016-04-30 15:24
topk问题 可以百度下
点赞 回复 分享
发布于 2016-04-30 12:49

相关推荐

qq乃乃好喝到咩噗茶:院校后面加上211标签,放大加粗,招呼语也写上211
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
21
分享

创作者周榜

更多
牛客网
牛客企业服务