实时流碰上高并发?

这是之前在处理一个实时流数据上碰到的。

之前背过很多,类似的关于高并发问题的一些官样文章。初读起来,总感觉索然无味。好像和幼儿园里把大象放进冰箱里的故事一样。

在业务中碰到的情况很特别。

同一个用户,会在同一个时间点有多条订单,即使把时间精确到 00:00:00,依然发现无法区分。前辈提醒后,才发现这其实是一种高并发的情况。

在Flink实时流里,通常碰到高并发的情况下,会进行一次打乱操作。在SQL任务中,我忘记进行了这种操作,后来发现其实是有这样的key by 参数。

大约可以这样处理。

在处理的时候,通过key by 的操作,会将并发数据存储同一个kafka topic上的逻辑分区。也就是虽然之前是并发的,但在key by操作之后,实现了在逻辑存储上的先后,也就让并发数据在被加工的时候有了一个先后。

虽然其实,处理过程没有八股中纷繁复杂的招式,但是其实体会这个过程确实是很美妙,有一种身处其中的快感。

#美团##我的实习日记##晒晒你的元宵动态##牛客创作赏金赛#
全部评论
mark高并发处理
点赞 回复 分享
发布于 02-20 22:39 江苏
mark高并发处理
点赞 回复 分享
发布于 02-20 17:57 陕西
mark高并发处理
点赞 回复 分享
发布于 02-18 23:07 广东
mark高并发处理
点赞 回复 分享
发布于 02-15 23:08 广东
mark高并发处理
点赞 回复 分享
发布于 02-15 21:15 北京

相关推荐

1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
评论
10
17
分享

创作者周榜

更多
牛客网
牛客企业服务