SQL Notes | BiliBili Internship - 下架视频评论弹幕增量占比

数据来源表:b_dim.dim_ctnt_arch_business_tag_info_d

表格性质:全量表

需求背景:需要拉取手机游戏行业20250501-20250513时间段内下架视频的评论/弹幕增量占所有视频的评论弹幕增量的占比

整体逻辑:

  1. 拉取时间周期开始、时间周期结束时的所有视频评论、弹幕数、状态明细表
  2. 算出所有视频评论增量、弹幕增量、状态明细表
  3. 将2中的子表按不同状态sum
  4. 将3中的字表中的数据除一下得到占比
WITH
  today_data AS ( -- 拉取至今日的所有视频的评论弹幕
    SELECT
      avid,
      COALESCE(interact_map_acc['评论'], 0) AS comment_today,
      COALESCE(interact_map_acc['弹幕'], 0) AS danmu_today,
      state AS state_today, -- 视频下架 state != 0; 视频正常 state = 0
      pubtime
    FROM
      b_dim.dim_ctnt_arch_business_tag_info_d
    WHERE
      log_date = '20250513'
  ),
  former_data AS ( -- 拉取至月初的所有视频的评论弹幕
    SELECT
      avid,
      COALESCE(interact_map_acc['评论'], 0) AS comment_former,
      COALESCE(interact_map_acc['弹幕'], 0) AS danmu_former,
      state as state_former
    FROM
      b_dim.dim_ctnt_arch_business_tag_info_d
    WHERE
      log_date = '20250501'
  )
SELECT
  SUM(
    CASE
      WHEN state_today != 0
      AND state_former = 0 then diff_comment
      ELSE 0
    END
  ) * 1.0 / (
    SUM(
      CASE
        WHEN state_today = 0
        AND state_former = 0 then diff_comment
        ELSE 0
      END
    ) * 1.0
  ) AS comment_ratio, -- 下架视频增量评论占比
  SUM(
    CASE
      WHEN state_today != 0
      AND state_former = 0 then diff_comment
      ELSE 0
    END
  ) * 1.0, -- 下架视频增量评论条数
  SUM(
    CASE
      WHEN state_today = 0
      AND state_former = 0 then diff_comment
      ELSE 0
    END
  ) * 1.0, -- 所有增量评论条数
  SUM(
    CASE
      WHEN state_today != 0
      AND state_former = 0 then diff_danmu
      ELSE 0
    END
  ) * 1.0 / SUM(
    CASE
      WHEN state_today = 0
      AND state_former = 0 then diff_danmu
      ELSE 0
    END
  ) * 1.0 AS danmu_ratio, -- 下架视频增量弹幕占比
  SUM(
    CASE
      WHEN state_today != 0
      AND state_former = 0 then diff_danmu
      ELSE 0
    END
  ) * 1.0, -- 下架视频增量弹幕条数
  SUM(
    CASE
      WHEN state_today = 0
      AND state_former = 0 then diff_danmu
      ELSE 0
    END
  ) * 1.0 -- 全部增量弹幕条数
FROM
  (
    SELECT
      touch.avid,
      td.comment_today, -- 至今日评论数
      COALESCE(fd.comment_former, 0) as comment_former, -- 至月初评论数
      td.danmu_today, -- 至今日弹幕数
      COALESCE(fd.danmu_former, 0) as danmu_former, -- 至月初弹幕数
      td.state_today, -- 今日视频状态
      fd.state_former, -- 月初视频状态
      td.comment_today - COALESCE(fd.comment_former, 0) as diff_comment,
	 -- 月初至今日视频评论增量
      td.danmu_today - COALESCE(fd.danmu_former, 0) as diff_danmu
	 -- 月初至今日视频弹幕增量
    FROM
      (
        SELECT DISTINCT
          avid
        FROM
          bili_sycpb.dwd_bdata_common_arch_touch_a_d
        WHERE
          log_date = '20250513'
          AND bdata_industry_name = '手机游戏'
      ) touch -- 特定日期和行业下的视频id去重明细表
      LEFT JOIN today_data td ON touch.avid = td.avid
      LEFT JOIN former_data fd ON touch.avid = fd.avid
  )
  -- WHERE
  --   state_today != 0
  --   AND state_former = 0

结果:

  • comment: 1.67%
  • 弹幕: 0.56%
  • 好像写的有问题啊,我回顾的时候发现。我的分母里放的是“周期开始:状态正常;周期结束:状态正常”的聚合数,但是是不是应该放“周期开始:状态正常;周期结束:状态任意”的聚合数,就是 WHEN state_today = 0 AND state_former = 0 改为 WHEN state_today = 0 就可以了。离职了才发现,我晕。
  • 还有好像还可以简洁一点,不用写touch这个子表,直接在today_data, former_data这两个初始明细表里边限制行业不就行了。
全部评论

相关推荐

04-12 21:52
南开大学 Java
鼠鼠有点摆,去年边学着没敢投简历,没实习。从1月到现在总共面了五次,四次字节的日常(HR打电话约面试才敢去的),然后一次腾讯的暑期,都是一面挂,其他则是没给面。暑期的岗,4.2才开始海投,前面想着等字节第四次一面后再投,结果挂,而且感觉投晚了。字节投了11个,9个简历挂,剩下2个没动静。阿里全都简历挂,剩下的在"投递简历"。腾讯给了一次面。然后其他大中厂、手机厂什么的都是做完测评or笔试就没下文,打开几个看也是终止流程,感觉剩下的也应该是简历挂了。感觉是简历的原因?项目部分,几次面试,感觉面试官主要就拷问过秒杀这一个点。自己说的时候会尝试把sse那条说成亮点,但除了腾讯面试官问过一下这整个点在业务方面对用户有什么用之类的问题外,其他最多只是问一下sse八股...感觉也许不是很让面试官感兴趣。这个短链接也是无人问津,就被问过一回雪花算法的设计。也许我该拿点评改改,然后再在网上找一个什么项目,凑两个,而不是用自己现在这两个项目?或者是点评改改放前面,然后原本第一个项目,把秒杀抽掉,剩下的想办法从网上火的RAG项目里移植点亮点,或者直接就用网上的RAG项目?感觉我主要还是偏向后端开发,但是感觉如果除开点评,再拿一个项目,想不到有什么自己能掌控且跟点评不重的。然后鼠鼠之前主要的问题是担心面试让打开项目演示,然后就一直花时间在用AI整第一个项目,第二个项目都没时间整,第四次面试之前还因为太害怕被认为不熟悉项目,跟AI一起把简历的说辞做了大幅度弱化,然后暑期都是拿弱化后的简历投的,感觉是不是看上去太没有吸引力就直接给简历挂了。(图1是弱化后的,图2是弱化前的,但之前3月初投了几家好像也是简历挂。)而且因为3月花了很多时间整在跟AI整代码,导致八股和算法都没怎么看,算法之前有跟灵神题单刷一些,还算入门,但是八股只看了一些基本的,可能面试的时候只答得上来60-70%,而且表述有些混乱,都是想到哪说到哪;前面几回面试基本上都有大板块的基础八股没答出来,比如RedisZ Set数据结构,MQ延时消息、可靠性保证,JVM内存分配的过程、GC roots,JUC锁,设计模式。现在有点不知道该怎么办。求大佬们给点简历修改建议或者面试准备建议,不胜感激!
何时能不做牛马:简历每个点之间的间距可以缩一下。几乎没遇到过要演示项目的情况,即使万一遇上了你也可以说部署在其他电脑上本地没代码。nku不应该简历挂吧?抓紧背背八股练练表达,不要放弃,五六月份找到也不晚(不然还得提前入职
应届生简历当中,HR最关...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务