排序问题

1.有一个10G大小的无序文件,文件里是32位无符号数(0~42亿,即:0 ~ 2^32 - 1),给你5G的内存空间,请对这个10G大小的文件进行排序?

        一般的归并排序、快速排序等都需要将所有数据全都读到内存中,而本题有10G的数据,5G的内存显然放不下。
【解决方案】
        利用堆和TopK的思想。
  • 先准备一个有容量限制的小顶堆(为方便描述,容量暂定为10)和一个map。map的key是文件中的数字,value是数字对应出现的次数
  • 通过遍历这个文件,考虑将数字放到堆中:
    • 先看遍历到的数字在不在map中,如果在,说明堆中有这个数,直接将对应的value+1;
    • 如果不在map中,再看堆满没满,如果没满,直接把这个数放到堆和map中;
    • 如果堆满了,比较这个数字和堆顶元素(10个数中最小的)的大小:
      • 如果数字 < 堆顶元素,直接跳过;
      • 如果数字 > 堆顶元素,就把堆顶元素剔除掉,同时删除对应的k-v,将遍历到的数加到堆和map里。
  • 一次遍历后,堆里的这10个数就是本轮最大的10个数,将堆中的10个数按顺序输出到一个文件中,同时记录这10个数中的最小值,下次遍历时只遍历小于这个最小值的数。
  • 这样经过几轮遍历之后,就能给这个文件排好序了。
    【tips】堆越大,遍历的轮次越少。
2.























全部评论

相关推荐

不愿透露姓名的神秘牛友
07-07 13:35
虽然不怎么光彩,经过这件事,可能我真的要去认同“面试八股文早该淘汰!不会用AI作弊的程序员=新时代文盲!”这句话了
HellowordX:Ai的出现是解放劳动力的,不是用来破坏公平竞争环境的,这样下去,轻则取消所有线上面试,严重了会影响整个行业对所有人产生影响,企业会拉高入职考核各种离谱考核会层出不穷
你找工作的时候用AI吗?
点赞 评论 收藏
分享
这算盘打的
程序员小白条:都这样的,都是潜规则,你自己说可以实习一年就行了,实习可以随便跑路的
点赞 评论 收藏
分享
水墨不写bug:疑似没有上过大学
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务