大文件按某种哈希算法,切割成可读进内存的小文件,保证同一单词都放到一个小文件即可,然后分别统计每个小文件中单词的出现次数。最后用一个最小堆做统计。依次分别读取这些小文件,统计出top1000 。 这样应该可行吧
6 7

相关推荐

04-10 11:56
如皋中学 Java
高斯林的信徒:双c9能简历挂的?
点赞 评论 收藏
分享
牛客网
牛客企业服务