蓄水池采样算法

问题描述

采样问题经常会涉及到,简单地,有如下形式:

1.从1000000份调查报告中抽1000份进行统计

2.从一本很厚的电话簿中抽1000人进行姓氏统计

3.从Google搜索"AI"的结果中抽100个进行分析

分析: 问题1我们很容易想到生成1至1000000的随机数,抽取1000个,用算法去重保证采样结果不重复即可。问题2与问题3的性质与问题1不同,由于数据规模N可能十分巨大,没有办法将其一次全部读入内存,所以存储所有数据再遍历一次来获取其规模这一做法不可取。

采样问题最重要的是保证公平,即对于总样本集合中的所有元素来说,每个元素需具有相等的概率被选择。这里,我们需要使用随机数算法。

蓄水池采样算法 Reservoir Sampling

Reservoir Sampling是一系列的随机算法。算法过程:
假设数据序列的规模为 n,需要采样的数量的为 k。
首先构建一个可容纳 k 个元素的数组,将序列的前 k 个元素放入数组中。
然后从第 k+1 个元素开始,以 k/n 的概率来决定该元素是否被替换到数组中(数组中的元素被替换的概率是相同的)。当遍历完所有元素之后,数组中剩下的元素即为所需采取的样本。

证明过程

有如下两种情况:
1 . 对于第i个数(i<=k)。在k步之前,被选中的概率为1。从第k+1个元素开始,这个数被第k+1个元素替换的概率 = (第k+1个元素被选中的概率 * i被选中用于替换的概率), 即(k/(k+1))*(1/k) = 1/(k+1)。也就是说,到第k+1个元素为止,第i个元素被保留下来的概率为1-(1/(k+1)) = k/(k+1)。以此类推,遍历到第k+2个元素,第i个元素被保留的概率为1 - (k/(k+2) * (1/k) ) = (k+1)/(k+2)。那么,遍历完全部n个数,第i个数被保留的概率 = 1 * (k/(k+1)) * ((k+1)/(k+2)) * ((k+2)/(k+3)) ... * ((n-1)/n) = k/n。
2 . 对于第j个数(j>k),在第j步被选中的概率为k/j。其不被第j+1个元素替换的概率为 1 - (k/(j+1)) * (1/k) = j/(j+1)。 也即遍历完第n个数时,第j个数仍被保留的概率 = 被选中的概率 * 不被替换的概率,有如下表达:
(k/j) * (j/(j+1)) * ((j+1)/(j+2)) * ... * ((n-1)/n) = k/n。
综上所述,对于样本集合中的每个数来说,被保留的概率均为 k/n。

例子:

给定一个单链表,随机选择链表的一个节点,并返回相应的节点值。保证每个节点被选的概率一样。

class Solution {
public:
    /** @param head The linked list's head.
        Note that the head is guaranteed to be not null, so it contains at least one node. */
    ListNode* p = nullptr;
    //int len = 0;
    Solution(ListNode* head) {
        // 此处已保证p不为空
        p = head;

    }

    /** Returns a random node's value. */
    int getRandom() {
        //srand((unsigned)time(NULL));
        int i = 0;
        int ans;
        ListNode* p1 = p;
        while(p1)
        {
            ++i;
            if(rand()%i==0)  // 此处蓄水池的容量为1
                ans = p1->val;
            p1 = p1->next;
        }
        return ans;
    }
};
全部评论

相关推荐

小厂面经,也是我的处女面(30min)1.自我介绍2.spring&nbsp;boot的自动装配原理(好多类和接口的单词都忘了全称是啥了,就说了记得的单词,流程应该说对了吧)3.有用过redis吗?主要是用在实现什么功能(说了技术派用redis的zset来实现排行榜)5.有了解过Redisson吗?讲一下对于分布式锁的了解以及在什么场景下应用(说了秒杀场景)6.对mysql有了解吗?包括它的索引优化和创建(把想起来的全说了)7.了解设计模式吗?比如单例模式,为什么要使用单例模式,它的优点是什么(昨天刚看的设计模式)8.工厂模式有了解吗?主要的使用场景是?(也是昨天刚看的)9.场景题:有7个服务器,需要在早上十点定时的向数据库中的用户表中的用户发短信,如果做到发送的消息不重复,且如果发送失败了需要知道是到哪个用户失败了,这样下次就直接从这个用户开始(我答了用spring&nbsp;task来实现定时,用分布式锁来保证只有一份服务器可以发送消息,用消息队列来存储消息,然后用消息确认机制来保证错误信息的记录,以及在数据库或者业务层面完成消息消费的幂等性)10.场景题:如果在系统启动的时间就将数据库的所有用户相关的信息都读到一个hashmap中(这个没啥思路,没答好)27届的投了一个星期终于有一个面试了,大部分公司都只招26的
inari233:已oc,拒了
查看9道真题和解析
点赞 评论 收藏
分享
咦哟,从去年八月份开始长跑,两处实习转正都失败了,风雨飘摇,终于拿到offer了更新一下面试记录:秋招:多部门反复面试然后挂掉然后复活,具体问了啥已经忘了,只是被反复煎炸,直至焦香😋春招:base北京抖音hr打来电话说再次复活,准备面试,gogogo北京抖音一面:六道笔试题:1.promise顺序2.定义域问题3.flat展开4.并发请求5.岛屿数量算法(力扣)深度,广度都写6.忘记了,好像也是算法,难度中等其他问题多是框架底层设计,实习项目重难点~~~秒过😇北京抖音二面:三道笔试题:(为什么只有三道是因为第三道没做出来,卡住了)1.中等难度算法(忘记啥题了,应该是个数组的)2.认识js的继承本质(手写继承模式,深入js的面相对象开发)3.手写vue的响应式(卡在了watch,导致挂掉)---后知后觉是我的注册副作用函数写得有问题,有点紧张了其他题目多是项目拷打,项目亮点,对实习项目的贡献~~~第二天,挂,but立马复活转战深圳客服当天约面深圳客服一面:六道笔试题,由于面过太多次字节,面试官叫我直接写,不用讲,快些写完😋,具体都是些继承,深拷贝(注意对数组对象分开处理,深层次对象,循环引用),加中等难度算法题~~~秒过深圳客服二面:口诉八股大战:大概囊括网络,浏览器渲染原理,动画优化,时间循环,任务队列等等(你能想到的简单八股通通拉出来鞭尸😋)算法题:笔试题6道:1:找出数组内重复的数,arr[0]-arr[n]内的数大小为[1-n],例如[1,2,2,3,3]返回[2,3],要求o(n),且不使用任何额外空间(做到了o(n),空间方面欠佳,给面试官说进入下一题,做不来了)2:原滋原味的继承(所以继承真滴很重要)3:力扣股票购买时机难度中等其他滴也忘记了,因为拿到offer后鼠鼠一下子就落地了,脑子自动过滤掉可能会攻击鼠鼠的记忆😷~~~秒过深圳客服三面:项目大战参与战斗的人员有:成员1:表单封装及其底层原理,使用成本的优化,声明式表单成员2:公司内部库生命周期管理成员3:第三方库和内部库冲突如何源码断点调试并打补丁解决成员4:埋点的艺术成员5:线上项目捷报频传如何查出内鬼成员6:大文件分片的风流趣事成员7:设计模式对对碰成员8:我构建hooks应对经理的新增的小需求的故事可能项目回答的比较流利,笔试题3道,都很简单,相信大家应该都可以手拿把掐😇~~~过过过无hr面后续煎熬等待几天直接hr打电话发offer了,希望大家也可以拿到自己心仪的offer
法力无边年:牛哇,你真是准备得充分,我对你没有嫉妒,都是实打实付出
查看19道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客企业服务