语兴的数据问题解答-第一期
问题1
我发现有的公司把宽表和明细层多同步一份到集市层给应用侧直接调用。不允许应用方调用仓内明细表和宽表的。大厂也这么搞吗?
解答1
建议采用语兴这里新数仓模型建设,我们在这里分为5层,即ods、dwd、dwm、dws、app(即原来的ads), (1)ods还是与源头数据保持一致。 (2)dwd这里做了一些变化dwd不再做维度退化只做code到name的转化并且code name都带上 同时做数据过滤,dwd只存放每个事实环节举个例子招聘这个数据域包括岗位发布、简历、面试、招聘体验问卷、offer、被调等流程这里的事实只放其中一个环节的内容。 (3)dwm这里将大改,dwm会将dwd流程关联在一起同时做统一的维度退化,保障了每个dwd事实表维度不再冗余,同时将全流程明细加工出来方便后续ads dws访问数据表,同时从dwm开始则为业务(数分、数据产品等)提供数据查询,让业务可以直接看到全流程内容,理解为全流程明细宽表。 dwm有2种玩法,(1)只给业务方用DWM,因此维护不用那么勤这样也可以做到解耦,但维度、关联还得在后续ADS开发中继续做(2)所有后续表都要依赖DWM,这样做依赖就会重一些,好处是维度、关联都提前解决,提升后续开发任务运行效能,缺点是dwd新增字段都需要进行维护,各有利弊。 (4)dws则没变化还是统一指标口径,放入业务需要的维度汇总(尽可能只放需要的维度),否则可能因为group by 维度膨胀导致后续难用,同时按照颗粒度、周期进行指标汇总。 (5)app则作为大宽表与小宽表模式,小宽表尽可能服务于一次性使用的看板或者专题分析,大宽表则可以继续引用dwm全流程明细表、dws指标汇总表,实现app层大宽表可以支持多块业务。 同时对于夸主题域需要建设综合分析主题域去单独存放,例如存放员工从招聘到试用期情况
问题2
兴哥,最近市场好起来了不,那些城市岗位比较多,怎么投简历会有安排?
解答2
对比9月那会确实好了不少目前就北京和上海hc多点,其次就杭州,且大多数都是大厂在招聘。 投简历时候建议投最新的岗位(这里要确定是数仓)且筛选为最新,我记得boss可以看到最新发布的岗位,jd可以看一些关键词,模型建设、指标体系、数据资产、数据服务、元数据、数据质量等,技术java/sql/python、hive、kafka、spark、flink等。
问题3
大佬有空可不可以考虑讲面试后如何复盘的课程呀,最近虽然接到了好多面试,但感觉自己的面试能力并没有明显的提升?
回答3
方便的话可以进行录音,晚上面完全部公司听一遍自己出错在哪,其实我自己的办法则是记住重要回答不好的地方在面试结束后立刻沉淀在面试手册中,这里复盘分三块 (1)第一块是个人介绍,如果你常常被人打断或者别人觉得你说的太多的 需要考虑从简等着他去问你项目细节。 (2)第二块一块是八股文这块在面试结束后去复盘,尤其是场景题需要好好想想。 (3)第三块是sql 这个需要记住题目自己复盘或者发群里让大家看看能够给你思路同时自己再写一遍。
问题4
离线数仓面试的时候怎么描述更有条理展现工作量? 我想的是 1.数据同步过程 2.数据建模 3.可视化
回答4
看做的什么项目每个项目产出还不太一样,看问题应该问的是某个ads建设产出量 在这里我举个例子 1.制作x种场景及主题下的用户标签数据资产; 2.完成下不同场景及维度下标签制作,总计xxx个; 3.通过标签配合下游完成用户画像, 满足不同标签组合下用户画像群体区分,支撑xx个业务运营; 4.完成画像标签数据资产门户0-1的搭建方便用户查询;
问题5
比如这么个场景:直播订单表,某一天头部主播开播导致订单暴增,如何找任务原因
回答5
场景是半夜值班因为数据波动dqc给拦截了, 事中:解决办法临时调整资源和任务优先级,同时和业务沟通(业务半夜也起不来,没啥用),优先放过(由于是直播增量数据不能用t-2回补) 事后:与业务方/系统侧沟通如有活动情况,请邮件抄送数仓侧作为提醒,并注明业务背景和预估数据量规模,其次针对数据量情况做分区参数优化(如果用的spark3可介绍下)和计算资源配置,其次针对大key 可以做加盐 或者hash 加mod 取模做的分桶计算 或者对于这个情况还可以分段计算 达到打散key 的情况
问题6
有10个Map Task,2个ReduceTask,2个Executer,每个Executer有两个2Core问Hash Shuffle产生的文件个数
优化过的Hash Shuffle产生的文件个数
回答6
Hash Shuffle产生的文件个数:Map Task*ReduceTask=20个 优化过的Hash Shuffle产生的文件个数:ReduceTask*Executer*Core=8个
问题7
语兴,30多还能转数据嘛,有点迷茫不知道怎么转要学什么,数仓职业生涯规划
回答7
建议别转,如果执念很强,可以不考虑去互联网而是去传统行业,目前传统行业都在数字化转型,就我现在所在业务来说,人力资源这块数字化转型就是很好的案例,小众且目前很多公司都开始做这块业务,懂人力资源的技术人也少,可以作为参考 数仓职业生涯规划 数据仓库(点)—>高级/资深数仓(线)—>数据仓库专家/高级数据仓库专家(带团队,面)—>数据总监(CDO,体,从业务出发通过数据技术帮助业务快速跑起来),目前我也没到p8及以上的等级,所以后续规划没办法讲出(怕误导),
问题8
关于报表提问
1.报表开发与数仓各层模型设计开发有何关联?
2.就前端展示,如何有什么好的方法设计报表?
3.你认为报表开发的重点是什么?
4.怎么样快速支撑报表开发?
回答8
1一般报表只跟应用层联系最多,即标签或指标的方式给到下游应用。 2可以先看看别的公司报表长什么样,如果没有可参考可视化工具官网案例,找到相通性按照他们的模块以及配色去改。 3重点是突出核心指标,以及信息的总结(我采访过挺多决策层,他们都希望在核心指标展示后能附加一个结论,可以是定期更新写死的内容也可以是用数据拼接的内容),筛选核心筛选项即维度,并附加跳转明细及下钻。 4快速支持报表开发,主要在于前期数分与数仓沟通时候,数分能清楚到底要看什么方向指标,以及北极星指标拆解后的口径内容(一定要确定指标口径,如果只是看看,可让他们自己写sql加工),当确定完指标后数仓可优先设计ads模型划分主题先给到数分侧空表让他们把看板搭起来,如果数据还没接入可设计好ads 后开始接入,后续等数分将看板搭建好后数仓这边也几乎完成ads数据模型开发,共同抽1天去测试即可,当出现开发加测试时间很紧迫的时候,可优先做ods 穿透 后续补dwd dws 。
问题9
校长能不能讲讲这个数据产品呀
回答9
数据产品类型 偏中台 建设数据服务产品解决业务、数仓取数用数看数效率,这类岗位更多面向to b to g做数据产品类公司多些,产品类型包括数据集成、指标中心、用户标签画像平台、数据治理平台、自助取数、模型建设中心、可视化等。 偏业务 以业务为核心,对接业务(运营等),梳理需求,整理需求价值,并将需求抽象梳理成数据侧、后端研发侧能看懂内容包括指标、数据看板样式、数据源信息等,并完成需求排期规划,建设业务用数平台(例如我们之前在b站数仓建设实践路线-第15讲 ehr数据平台,用于解决hr侧用数看数问题),当然偏业务产品也可以做中台类产品的事,看每家公司岗位具体规划。 当前大数据就业环境、岗位、未来发展情况 岗位情况 数据产品其实更适合作为社招转型而来,多数为产品、数分、数仓为主向这个方向转型,前两者更熟悉业务框架,能更好对接业务,数仓方向更清楚数据研发与业务配合流程以及将需求传达给数据研发,从而加速需求进展,对于校招同学来说可能需要适应一段时间,作为校招生1对业务不够熟悉,2对开发流程写协作也不够熟悉。 目前来说大多数企业对于数据产品需求还是更偏重于业务方向,1.偏业务数据产品能够管理需求替数据研发开一些不必要的会,用来总结传达要做的事,梳理清楚业务要的指标口径、看板样式等,实现运转最大化,2.偏业务数据产品能帮助业务获取业务价值(作为数据研发必须吐槽这点,每次汇报/周报写业务价值都很累,甚至对接下游业务方也不会给你说太多价值)3.偏业务数据产品且具备中台能力产品也可以帮业务通过业务痛点构思解决方案工具。 也可以理解为数据需求管理+部分数据bp+产品的pro版
问题10
语大,想请问下,一面二面三面的自我介绍能讲一样的吗,都是用的你视频中那种模板,简单介绍下个人信息再讲下项目,另外反问环节哪些问题比较合适,你这边有出过相关的内容吗
回答10
针对不同面试我们回答的内容也不同 1面:mentor面考察基础,可以把你从项目背景到项目整体过程和细节以及成果说出,让面试官知道你在做什么。 2面:leader 面考察基础同时考察场景应对能力,可以讲一讲项目整体背景以及开发流程,细节可以不说,最终讲一下结果,这里记得准备一个你在项目中遇到的难点还有未来规划。 3面:总监面考察你全局思考以及你的逻辑思维能力和对接业务理解业务能力,这里要注意,有些总监是做业务出身有些是做技术,但你无法猜测到你会遇到哪种情况,同时总监时间有限没时间听你那么多繁琐过程,所以我们针对3面要说项目背景,还有最终的产出。 4面:hr 面主要考察3个点1是你对公司意向度,2是你之前做的事有没有价值,遇到了什么问题,3是你如何证明自己身上的优点,例如我自我驱动能力强(体现在我对整个项目全局把控,制定项目排期,除了做好项目中的事我还拓展做了一些效能小工具去辅助业务),所以在hr 面我们要说项目背景,简单的项目流程(记住一定要简单 说复杂了他也听不懂),可以谈谈自己对项目的看法或者遇到过什么问题怎么解决(不要带太多专业性内容尽量通俗一些),最后表达自己强烈想来公司的意愿(小窍门 面试之前把这家公司的app玩一玩 最起码知道这是一家做什么的公司)。#数据人的面试交流地##数据分析##数据人offer决赛圈怎么选##数据开发工程师##牛客在线求职答疑中心#
