用户标签画像体

一、前言

大家常听到一个词叫大数据杀熟,甚至很多同学会发现查询了某个商品后,后面各平台都会推荐这个商品,甚至大家在线下聊完一个信息后,系统也会给你推相似内容信息,为什么大数据会杀熟,本质在于企业形成了用户标签画像体系,也就是大家经常提的千人千面,但千人千面所有源头都是来源于一个个用户标签画像体系的形成,本期我们从用户标签角度出发带大家看清标签加工到画像生成整个过程。

画像标签的初衷是没问题的,是帮助企业快速筛选更优质的用户,从而减少无效广告的推送,推送偏好信息,但如果用户标签画像被多平台共享,你会感觉到整个生活都被数据所支配,所以在今天大家都在强调用户隐私,但语兴想说在数据爆发的今天用户一言一行都是一条记录都会被作为画像作为标签而被使用。

二、用户标签介绍

什么是标签

用户标签反馈了用户基础属性、行为属性、生命周期、社交属性、行为偏好、营销偏好、用户体验、消费能力等等多个方面,可以为后续用户画像,用户分层,AB实验提供数据支持,一个用户可能身上会被打近百个标签(数据表字段)用于分析。

举个例子🌰:

以语兴自身为例去做用户标签

基础属性-基础信息:语兴今年27、性别男、青岛人

基础属性-身份信息:用户等级lv10

社交属性-关注属性:全网平台累计粉丝量2w+

偏好属性-内容偏好:对音乐内容感兴趣

用户体验-用户举报:最近30天被用户投诉0次

行为属性-发布属性:近30天发布课程3节

营销活动-活动参与:最近一次参与的活动为秋季大促

消费能力:客单均价在400元

通过如上标签可以粗略分析出用户具体样貌,可以继续后续数据加工。

标签属性

标签和指标的关系是包含的关系,标签可以直接为指标,标签也可以由指标组合形成,同时维度属性基础属性也可以成为标签,因此我们常见标签属性包括如下几点:

(1)文本信息:年龄、性别、手机号、ip、地区城市、设备、用户等级、vip等级

(2)单枚举:是否高消费用户、是否活跃用户等都是0/1与Y/N组成

(3)多枚举:年龄段(80后、90后)、用户xxx状态

(4)复合指标/派生指标:最近30天最大消费金额、最近7天签到次数、最近30天离职率

(5)派生日期:这里的日期不是单独的日期,而是日期加维度/周期,最近一次下单时间、第一次访问时间等

标签与指标

刚才语兴提到指标和标签关系,标签中枚举大多数会通过指标进行组合加工得到,同时指标也可以直接转化成标签去使用。

例如语宙(语兴社区业务)中,是否最近7天是否社区活跃用户,如何评判最近7天用户是否活跃,可以通过如下几个指标去分析:

(1)近7日连续登录次数大于3日

(2)近7日发布作品大于2个

(3)近7日点赞收藏转发作品次数大于15次

(4)近7日评论次数大于10次

(5)近7日参与社区活动次数大于2次

这分别是5个指标,我们可通过5个指标给用户进行打标sql写法如下

select if(
          近7日连续登录次数>3 
          or 近7日发布作品>2 
          or 近7日点赞收藏转发作品次数>15 
          or 近7日评论次数>10
          or 近7日参与社区活动次数>2
          ,1
          ,0
         )

三、标签加工及开发

通常标签都是业务提出,例如业务方今天想看人群从而进行分析,会将要添加的标签口径找数分、数据产品对接,最后数仓完成标签开发,标签宽表设计有2种方式:

(1)各场景用户标签数据资产:这种方式则是将用户按照不同属性(偏好、行为)或者不同产品内容(直播用户、短视频动态用户)进行划分从而建设多个宽表,好处在于分类清晰,可按照数据表属性来取对应标签,坏处则在于如果业务方要看不同场景标签还需要去关联加工。

(2)用户360标签数据资产:这种360全视角分析方式则是集中核心标签去分析用户,减少标签分散或者标签长期不用带来的检索问题,缺点也很明显,即标签属性只有核心属性。

社区用户360背景

随着社区业务快速发展,与之相伴随的是社区核⼼用户资产的建设与沉淀,本项⽬以解决内容侧的⽤户标签缺失问题为⽬标,从多角度去分析用户数据,实现用户数据全貌展示,提升下游运营侧用户精准流量的定位,支持下游广告投放,营销活动等开展。

标签设计

数分拿到运营这个需求后需要想到的则是按照业务方用数视角去考虑,可以从业务环节出发、也可以从分析视角出发去拆解标签,我们作为数分按照短视频、直播、用户发帖、登录/评论/点赞/转发等行为可以联想到拆解出如下场景中标签,当然标签不止这些。

(1)用户基础属性:基础属性 用户属性:年龄分布,城市等级,蓝V,用户等级,系统类型,注册ip,这样可以用维度组合标签去观察。

(2)发布属性:最近30/60/90天账户创作,最近30/60/90账户写作评级,最近30/60/90平台曝光流推荐次数,近30天发布总量,最近90天最后一次动态发布时间

(3)生命周期: 用户广告停留时长,是否tab低活沉默(tab中近30天活跃小于等于3),是否心智ugc,用户分层(低频用户 30天内tab访问低于2天 中频率),是否推荐页内容点击用户,近30天连续登录天数

(4)社交属性:累计粉丝量,7天内创作者粉丝增长,粉丝量分层,近30天私信量

(5)行为偏好:第一偏好内容一级类目(社区浏览互动行为(点赞收藏 分享),加和排名第一类目),评论次数,点赞次数,关注次数,收藏字数,搜索pv,喜欢发布帖子类型

(6)营销偏好:是否对科技数码兴趣 是否对健身兴趣,是否对穿搭兴趣

(7)用户体验:最近 30天被举报次数,到诱导关注,是否收到垃圾广告,被举报驳回次数,用户原始满意度 用户转化后满意度 用户是否收到收到骚扰

标签开发

数据仓库同学根据标签业务口径及标签属性内容,去下挖使用的数据表(直播信息表、内容发布表、用户关注表、用户行为操作表、举报记录表、内容搜索表、用户维度表等等),这里由于是360数据资产建设,所以我们只做一个ads数据宽表,由于我们分析的是用户360,因此需要以用户粒度为主,选择dim_user表为驱动表(主表)伪代码如下:

insert overwrite table ycommunity.ads_user_360_profile PARTITION(pt = '${bizdate}')
select user_id
      ,age
      ,user_level
      ,vip_level
      ,case when age>=18 and age<21
            then '18到21岁'
            when age>=21 and age<23
            then '21到23岁'
            when age>=23 and age<27
            then '23到27岁'
            when age>=27 and age<30
            then '27到30岁'
            when age>=30 
            then '30岁'
       end as age_range--年龄段
      ,if(publish_trend_cnt_7d>2,1,0) as is_sau--这里是缩减版
      ,publish_trend_cnt_30d--近30天发布总量
      ,t2.create_time as last_publish_time_90d

from ycommunity.dim_user t0 
left join
ycommunity.dws_trend_user_targer_30d t1
on t0.user_id=t1.user_id

left join (
select user_id
      ,create_time 
      ,row_number over(partition by user_id order by create_time desc) as rn
from ycommunity.dwd_trend_detail_di
where pt>='${bizdate_90}'--create_time是分区
) t2
on t0.user_id=t2.user_id
and t2.rn=1

left join
ycommunity.dws_trend_user_targer_7d t3
on t0.user_id=t3.user_id

四、标签管理

当我们开发好标签宽表后可维护至标签画像平台中进行维护,方便后续进行人群全选,如果没有平台支持可以先通过共享excel文档去维护。

网易Easy Data标签画像平台-测试环境

标签分组

标签分组和做指标域类似就是把之前定义好的基础信息、行为信息等按照一级二级类目进行划分,用Excel同学可以一个sheet页一个一级分组

网易Easy Data标签画像平台-测试环境-标签目录

标签新建

新建标签优先要绑定标签来源表,作为数据来源,这里如果没有平台同学只能通过手工记录数据来源来维护记录

网易Easy Data标签画像平台-测试环境-标签来源配置

配置好数据源后可以在标签管理中进行标签维护,维护属性包括标签id、名称、颗粒度(重点)、标签类型(重点)、业务逻辑、sql逻辑、负责人、映射数据源的字段等等。

网易Easy Data标签画像平台-测试环境-标签创建配置

五、用户画像

用户画像生成

画像则是由多个用户标签组合生成,而标签则是由维度/指标组成的,维度和指标则是来源于用户数据,这就和最开始讲的为什么会被大数据杀熟,因为你在平台上做了操作就一定会被记录,就会被打标签。

画像一般则是业务通过平台进行全选,底层则是执行的where条件,例如语兴今天想筛出杭州地区最近30天发布动态数大于2且最近一次登录时间大于9月20的用户,sql如下:

select user_id
from ycommunity.ads_user_360_profile
where pt='${bizdate}'
and publish_trend_cnt_30d>2
and substr(last_publish_time_30d,1,10)>='2024-09-20'
and city='杭州'

如果没有平台的同学其实也能做,但是对于业务要求可能会定制化一些,因为很多时候业务看画像都是随机一些,而且大多业务不会sql,所以只能麻烦数仓同学一直开发画像表/字段,导致数仓不够灵活

平台生成用户画像

平台生成画像与之前讲的指标中心课程类似,都是拖拉拽就能生成想要的数据,但结束和上面sql查询出来的是一致,所以如果要考虑标签画像存放,建议先把数据同步到Star Rocks或者Doris中,再配置OLAP的数据源,再开发数据产品,需要考虑标签新建维护、画像拖拉拽功能生成等。

网易Easy Data标签画像平台-测试环境-画像圈选

#你都收到了哪些公司的感谢信?##牛客创作赏金赛##数据分析##数据人offer决赛圈怎么选##数据人的面试交流地#
全部评论

相关推荐

05-12 22:45
已编辑
2222 安卓
55min问了40多个问题,底裤都被扒完了...问题:1,为什么使用flutter2,flutter的优点是什么3,mvvm架构的特点4,flutter和原生混合开发时,页面路由如何管理5,hashmap数据结构如何实现6,红黑树特点,插入和查找的时间复杂度7,hashmap为什么在链表长度为8时转化为红黑树8,内存泄漏的根本原因是什么?9,内存泄漏检测工具的原理了解吗?内存泄漏是如何被检测出来的?10,引用类型有哪些?11,Java中加锁有几种方式?12,审查代码时,如何发现潜在的死锁问题?13,死锁如何产生14,如何避免死锁15,tcp,udp是哪一层的协议,他们的区别是什么?16,tcp如何保证可靠性17,请求头中有哪些信息18,cookie的概念19,序列化和反序列化20,json和protobuf的区别21,数据加密有了解过吗?22,https相比较与http增加了哪些内容?23,https中的证书的概念24,效率比较高的排序算法,哪种算法时间最稳定?25,在实际项目中更轻倾向于自己实现排序算法,还是使用系统提供的方法26,java或c++中排序算法的源码有了解过吗,动态调节排序算法的策略?27,字符串查找算法,kmp时间复杂度,kmp思想是什么?28,计算机两数相乘溢出,如何解决?29,两个链表相交,如何求焦点30,安卓跨进程通信31,传统的操作系统,除了共享内存外,还有哪些跨进程通信的方法,使用场景相比于共享内存有哪些不同?32,view的绘制流程33,安卓绘制中的硬件加速的概念34,flutter是如何实现跨平台的35,flutter如何进行渲染,落实到平台上36,安卓消息机制37,flutter跟原生之间的消息通信38,服务器主动推送消息到客户端有了解吗?39,安卓本地存储,sqlite和sp的特点40,sp可以跨进程吗?如何操作?41,sp存储信息的两种方式,有什么区别?42,高德sdk,手机在室内时无法做卫星定位,如何发挥作用,误差是多少?43,网络请求框架现在普遍使用的是什么?dio是一种什么样的网络请求框架?
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客企业服务