谁了解HyperLogLog算法,出来讨论一下

谁了解HyperLogLog算法,出来讨论一下,国内资料很少,英文又晦涩难懂,有人能点拨点拨吗?#百度##腾讯##去哪儿##人人网##微博##阿里巴巴##google#
全部评论
该算法应用于计算数据流中不同的item的数量,刚好最近作业考这个,还让写java代码… 简单说下,就是把每个item进行hash计算为32位或64位的整数,然后设一个m值,假设m=4,那就取二进制的hash值前四位用作分区,也就是把原始数据流分为2^m个子数据流,m为4那也就是16个,然后统计每个子数据流里的Max leading zeros,存储到M[16],最后的结果就是 a(m)*m* M[16]的调和平均数 a(m)是根据m取值计算出来的一个constant常数,用于纠正最后结果的 这是自己目前的理解,如有需要,后续可以分享相关资料给楼主,但是都是英文的哈
点赞 回复
分享
发布于 2017-09-06 21:48
阿里三面时候问了这个算法在redis应用,回来查了些资料只知道是干啥的
点赞 回复
分享
发布于 2017-09-06 14:23
联易融
校招火热招聘中
官网直投
这算法全是英文文档,国内资料基本没有,E文晦涩难懂啊,真是。。。。
点赞 回复
分享
发布于 2017-09-06 15:44

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务