数据开发全流程介绍_牛客网

牛客696006441号

西北工业大学算法工程师发布于香港

关注

@来杯冰可乐叭：数据开发全流程介绍

上次写了一下大数据开发的日常工作以及实习的一些工作流程总结，这次就具体的写一下数据开发过程中，完成一个模型的产生或者说一个需求方案的产出是怎么完成的。本文的内容对于大家在面试中的意义是在于结合到自己已有的项目以及数据开发的流程，去完善自己项目的细节，比如说很多同学学习了尚硅谷的数仓项目，但是不知道怎么去描述，或者在面试杯问到容易出现疏漏，那么就可以按照本文去梳理整个项目的流程。岗位选择：https://www.nowcoder.com/discuss/462382334675779584?sourceSSR=users学习路径：https://www.nowcoder.com/discuss/463804300381245440?sourceSSR=users日常工作：https://www.nowcoder.com/discuss/466545985922035712?sourceSSR=users1 OneData数据实施体系（数仓建设）如果学大数据，大家应该都听过阿里巴巴的OneData大数据体系。其实在整个OneData体系中，对于数据实施的流程也有一些描述，那么什么是OneData，官方定义如下：阿里云 OneData 数据中台解决方案基于大数据存储和计算平台为载体，以 OneModel 统一数据构建及管理方法论为主干，OneID 核心商业要素资产化为核心，实现全域链接、标签萃取、立体画像，以数据资产管理为皮，数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心，强调业务模式，在推进数字化转型中实现价值。数据中台到如今的建设成果主要体现在两方面：一个是数据的技术能力，另一个是数据的资产。今天阿里的各个业务都在共享同一套数据技术和资产。阿里内部为这个统一化的数据体系命名为 “OneData”。OneData 又主要抽象成三个部分，分别是：OneID、OneModel、OneService。第一部分：OneModel 致力于实现数据的标准与统一；第二部分：OneID 致力于实现实体的统一，让数据融通而非以孤岛存在，为精准的用户画像提供基础；第三部分：OneService 致力于实现数据服务统一，让数据复用而非复制。1-数据调研数据调研分为业务调研、需求分析两部分，主要是对整个数据需求的背景用途进行调研业务调研：对业务系统的业务进行了解。在实际开发中，除了有扎实的数仓理论技术支撑，业务的理解甚至重要性更高，业务背景的细微差异都会导致数据的大不同。所以在实际工作中，数据实施的首要前提是开发人员对业务的了解。所以要构建大数据仓库，就需要了解各个业务领域、业务线的业务有什么共同点和不同点，以及各个业务线可以细分为那几个业务模块，每个业务模块具体的业务流程又是怎样的。需求分析：在明确了需求的业务背景后，那么下沉到具体的需求，每一个数据模型我们最后是要落实到运营、分析人员的使用上。所以需要根据具体的需求，了解数据的用途或报表的需求，这样我们才能设计出更灵活的模型。2-架构设计数据域划分：数据域是指面向业务分析，将业务过程或者维度进行抽象的集合业务过程可以概括为一个个不可拆分的行为事件，如下单、支付、退款为保障整个体系的生命力,数据域需要抽象提炼，并且长期维护和更新但不轻易变动。在划分数据域时，既能涵盖当前所有的业务需求，又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。构建总线矩阵：在进行充分的业务调研和需求调研后，就要构建总线矩阵了。需要做两件事情:明确每个数据域下有哪些业务过程;业务过程与哪些维度相关，并定义每个数据域下的业务过程和维度。3-规范定义定规范将是数仓建设的核心步骤，因为前期规范如果没定义好，后面所有的开发、迭代都会稀里糊涂，最直接的影响就是数据的使用效率低下，更长远的将会极大提高数据治理的成本。规范定义主要定义指标体系，包括原子指标、修饰词、时间周期和派生指标。时间周期用来明确数据统计的时间范围或者时间点，如最近 30 天、自然周、截至当日等。业务限定是对业务的一种抽象划分。业务限定从属于某个业务域，如日志域的访问终端类型涵盖无线端、 PC 端等修饰词。度量 / 原子指标原子指标和度量含义相同，基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，具有明确业务的名词，如支付金额。维度维度是度量的环境，用来反映业务的一类属性，这类属性的集合构成一个维度，也可以称为实体对象。维度属于一个数据域，如地理维度（包括国家、地区、省以及城市等级的内容）、时间维度（其中包括年、季、月、周、日等级别的内容）派生指标派生指标 = 一个原子指标+多个业务限定（可选）+时间周期。 可以理解为对原子指标业务统计范围的圈定。如原子指标：支付金额，最近一天海外买家支付金额则为派生指标原子指标、业务限定及修饰词都是直接归属于业务过程下，其中修饰词继承修饰类型的数据域。派生指标的种类派生指标可以分为三类：事务型指标、存量型指标和复合型指标。按照其特性不同，有些必须新建原子指标，有些可以在其他类型原子指标的基础上增加修饰词形成派生指标。4-模型设计模型设计主要包括维度及属性的规范定义，维表、明细事实表和汇总事实表的模型设计。操作数据层（ODS）把业务系统数据几乎无处理地存放在数据仓库中。同步：结构化数据增量或者全量同步到 MaxCompute结构化：非结构化（日志）结构化处理并存储到 MaxCompute累积历史、清洗：根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。公共维度模型层（CDM）存放明细事实数据、维表数据及公共指标汇总数据，其中明细事实数据、维表数据一般根据 ODS 层数据加工生成；公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM 层又细分为 DWD 层和 DWS 层，分别是明细数据层和汇总数据层，采用维度模型方法作为理论基础，更多地采用一些维度退化手法，将维度退化至事实表中，减少事实表和维表的关联，提高明细数据表的易用性。同时在汇总数据层，加强指标的维度退化，采取更多的宽表化手段构建公共指标数据层，提升公共指标的复用性，减少重复加工。其主要功能如下：组合相关和相似数据：采用明细宽表，复用关联计算，减少数据扫描。公共指标统一加工：基于 OneData 体系构建命名规范、口径一致和算法统一的统计指标，为上层数据产品、应用和服务提供给公共指标；建立逻辑汇总宽表。建立一致性维度：建立一致的数据分析维表，降低数据计算口径、算法不统一的风险。应用数据层（ADS）存放数据产品个性化的统计指标数据，根据 CDM 层与 ODS 层加工生成。个性化指标加工：不公用性、复杂性（指数型、比值型、排名型指标）基于应用的数据组装：大宽表集市、横表转纵表、趋势指标串5-总结OneData 的实施过程是一个高度迭代和动态的过程，一般采用螺旋式实施方法。在总体架构设计完成后，开始根据数据域进行迭代示模型设计和评审。2 数据模型实施（模型设计开发）那么我们在实际做一个模型的设计开发的流程较OneData体系更为简洁，但是也更注重细节。1-方案设计方案设计要考虑的问题包括：数据产出、链路设计、源表说明、口径说明、表结构设计。数据产出：首先设计出整个数据链路的拓扑图，举个例子：这里需要注意用到的每个表的最晚产出时间，这决定了你的ads最表最终产出的时间是几点。所以在选择上游依赖表的时候需要考虑到上游表的产出时间，避免影响新模型的产出，或者新模型等待时间过长链路设计：这里就是对上面拓扑图的解释，每一次聚合或者 join 得到什么结果。一般而言，具体的代码开发，也是按照这个链路来完成的，详细的计算逻辑落实下去即可。源表说明：介绍上面拓扑图中用到的表，从中获得什么数据。最好列举一个表格说明。口径说明：阐述一些计算的逻辑，比如：where 的条件：看过视频就算还是看过 3s 以上才算？视频还是直播？group by 的字段：用什么聚合？时间：聚合 7 天还是 30 天？表结构设计：产出的表有哪些字段、数据类型（比如百分数，存 0.35 还是 35？）、增量还是全量等。2-链路性能与耗时计算上面拓扑图中各个节点产出的资源消耗（CPU 核数、内存大小）和用时，比如：CPU[300, 110]：表示 CPU 最大消耗 300 核，平均消耗 110 核；Mem[2]：表示运行时存储最大消耗 2T；Time[16, 3:00]：表示任务产出耗时 16min，3:00 左右产出；Store[35, 30]：表示表单日分区存储 35G，数据量 30E。3-数据查询因为 Hive 表最终要推到 ES 或者 CH 才能供后端调用，所以这里需要记录 ES 的数据源是哪个 Hive 表，用在前端页面上的哪个模块。即 ES - Hive - UI 界面 的对应关系。并给出 SQL 查询的示例，让后端开发人员知道如何用怎样的 SQL 语句去查询。4-数据回溯开发完后回溯历史数据。具体考虑的问题还是很多的，并不是直接的运行代码跑历史分区那么简单。5-值域说明这一部分也很重要，比如：算比例，分母为 0 怎么办？空值用 NULL 还是 0 还是其他？6-数据完整性例行任务也在写，自动回溯也在写，手动回溯也在写，怎么保证 Hive 表里面的数据是完整的？一般而言，通常需要提前考虑风险，如果可以解决，直接在数仓内部完成解决方案落实。如果容易产生资损，那么可以考虑牺牲部分数据，但需要提前与业务方沟通以上就是整个的数据开发流程啦，希望对大家在编写简历的项目经验或者总结实习经历有帮助。接下来我会总结一下之前我自己整理的大数据面试八股文，大家有兴趣可以持续关注。

点赞 17

评论 4

全部评论

推荐最新楼层

昨天 13:57

门头沟学院 Java

收到的第一个周末面试的公司

虾皮信息一面357人在聊

点赞评论收藏

分享

07-23 11:22

杭州电子科技大学大数据开发工程师

5年开发比不过应届211？

到底技术和学历本就不是对立的关系。现在即使是 211科班想要进大厂也不容易，我想用一组排序应该能更加直观表达，目前互联网技术岗对于技术和学历的看中关系：学历好技术好 > 技术好学历差点 > 学历好技术一般 > 学历一般技术一般一般来说，不等式前面两个比较容易进大厂，越往后概率越低，就算你是 985 的，技术面试不过关、算法能力不行，照样被pass。但是呢，有些公司对于学历有要求，基本只会要211、985以上的，但是鹅厂在学历方面不设限制，只要是本科以上都有机会被捞！所以学弟学妹们明白了吗，不要去在意不能改变的东西，如果学校不怎么好，有两个方法：考研深造拼命提高技术实力如果学校...

校招阶段，学历VS技术哪...

点赞评论收藏

分享

07-19 13:28

长沙学院 Java

普通一本，没有实习经历，秋招有机会进中厂吗？下面是简历

程序员小白条：你有面试就有希望，没面试自然就没希望，到时候就知道了，你问别人也没啥用处的

点赞评论收藏

分享

06-09 16:42

安徽大学数据分析师

迪爷现在演都不演了

如图，不演了😁

S_Holmes：一想到我苦苦追求的迪子私下里却是985的马子，我的心就在滴血😭😭😭

点赞评论收藏

分享

07-25 10:53

门头沟学院 Java

莉莉丝泡池子

投递简历一星期多了，一直卡在第一个环节没进展是不是已经没戏了

Peter____G...：其他大厂都过了，甚至在字节实习了，但是莉莉丝简历依旧秒挂

投递莉莉丝游戏等公司10个岗位

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届的你，投了哪些公司？ #

7336次浏览 108人参与

# 我对___祛魅了 #

15938次浏览 148人参与

# 中兴秋招 #

186669次浏览 2073人参与

# 如何快速融入团队？ #

5970次浏览 81人参与

# 你跟室友的关系怎么样？ #

1300次浏览 32人参与

# 和同事相处最忌讳的是__ #

8088次浏览 91人参与

# 简历上的经历如何包装 #

6352次浏览 172人参与

# 你遇到最难的面试题目是_ #

2237次浏览 50人参与

# 元戎启行求职进展汇总 #

35306次浏览 268人参与

# 打工人的精神状态 #

65520次浏览 1088人参与

# 我和mentor的爱恨情仇 #

61074次浏览 373人参与

# 工作中哪个瞬间让你想离职 #

38489次浏览 305人参与

# 什么样的背景能拿SSP? #

9623次浏览 83人参与

# 25届如何提前做秋招准备？ #

176009次浏览 2493人参与

# 你最讨厌面试问你什么？ #

5006次浏览 96人参与

# 毕业季，给职场新人一些建议 #

98101次浏览 1775人参与

# 工作中的卑微时刻 #

20278次浏览 165人参与

# 职场人，说说你的烦心事 #

13185次浏览 110人参与

# 远景求职进展汇总 #

53970次浏览 299人参与

# 职场常用语录大全 #

5743次浏览 42人参与

# 一人推荐一个机械人值得去的公司 #

413946次浏览 4157人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务