统计一个大文件里出现次数top1000的单词

统计一个大文件里出现次数top1000的单词及其出现次数,要求不用排序算法(同花顺的一道面试题)
全部评论
大文件按某种哈希算法,切割成可读进内存的小文件,保证同一单词都放到一个小文件即可,然后分别统计每个小文件中单词的出现次数。最后用一个最小堆做统计。依次分别读取这些小文件,统计出top1000 。 这样应该可行吧
6 回复 分享
发布于 2016-04-29 20:09
先用字典树统计单词出现的次数,然后遍历字典树中的单词并加入到大小为1000的最小堆中
点赞 回复 分享
发布于 2016-04-29 23:20
我就喜欢这种大数据相关的问题
点赞 回复 分享
发布于 2016-04-30 15:24
topk问题 可以百度下
点赞 回复 分享
发布于 2016-04-30 12:49

相关推荐

不愿透露姓名的神秘牛友
07-25 17:26
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-24 13:39
在记录秋招的大魔王很...:别被忽悠了,我做了多年销售。我可以告诉你,这就是忽悠你的,销售一定要看底薪也要看提成两者不可缺一。提成是有业绩的时候才拿的到的,谁能保证一直有单状态都好。销售有时候很讲究运气的。底薪是你这个人这个岗位日常工作体现的价值。别小看底薪,你看那些跳槽去做经理主管的,底薪底一些,人家愿意去吗?所以那些说销售靠提成的纯属忽悠,除非他们的业务很容易成单。
点赞 评论 收藏
分享
代码飞升:别用口语,后端就写后端,前端就写前端,最后别光后悔
点赞 评论 收藏
分享
评论
点赞
21
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务