HotRing Java实现

HotRing是阿里2020年发表的一篇存储论文,估计很多人没听过,但是它很有意思,特别对于hash场景下的热点优化有很大的效果。简单来说,hotring就是在超高qps场景下如何快速访问热点数据。

https://github.com/azhsmesos/hotring

应该算是全网第一个Java实现版本,当然时间问题还在优化当中,但是可以先看看benchmark效果

工作负载 theta  = 2 幂律分布因子

数据量级 10 ^ 7 数据 工作负载及其不均衡 的数据集 key是key,value是key出现的查询次数

可以看到分布及其不均匀,完全就是热点key场景

测试指标:

  • findCnt 总的查找次数 反应完成任务的系统开销
  • maxFindCnt 单次最高查找次数  反应系统的尾延迟,越低越好
  • minFindCnt 最小查找次数 单次最优表现
  • averageFindCnt: 平均查找次数
  • Use Time:总耗时

theta

工具

性能参数

2

HashTable

2

KHotRingCache

2

HashMap

1

HashTable

1

KHotRingCache

1

HashMap

0

HashTable

0

KHotRingCache

0

HashMap

从上面看到,因为HotRing的热点偏移特性,其查找次数和平均查找次数远远低于hashTable(底层是拉链法实现)

和jdk官方hashmap比较,由于jdk官方hashmap我不方便统计其红黑树的访问次数,仅仅访问了其get(方法的次数),也基本和khotRingCache持平,如果将其红黑树内部的item元素的遍历访问次数加上,肯定比KHotRingCache要多,这也说明KHotRingCache在工作负载不均衡,也就是有热点数据区间时,其查找次数要低于没有热点检测的map结构。至于耗时问题,可能我的链表增删改查实现和jdk官方还有很大差距,所以导致耗时会比hashmap高上50%左右,当然当前我还没有用上优化,仅仅实现了论文的随机热点检测,后续会实现采样热点检测,对于官方的很多字节上的优化我也会参考,不过想要在耗时上面超过官方还是有很大挑战性(也就是说要达到生产环境级别)。

而分布很均匀的时候,可以发现其实HotRing和HashTable的执行次数区别不大,因此hotRing适合于在热点分布很高(幂律分布)下使用。

下篇文章在介绍其实现原理,和benchmark的过程,代码已经放到github,不过短期内会重新迭代,欢迎点个star

#晒一晒我的offer##我的求职思考##校招##秋招##实习#
全部评论

相关推荐

点赞 评论 收藏
转发
2 7 评论
分享
牛客网
牛客企业服务