宇信科技大数据一面

一面时间10.29
面试了50min,但面试过程中网络经常出问题
1、自我介绍
2、你觉得大数据专业和计算机科学等专业有啥差异?
3、你觉得哪门你的印象比较深刻、对你的影响比较大?
4、你觉得大数据和传统数据库的主要区别在哪?
5、你觉得事务是什么意思?举个例子
6、你觉得整个事务是单纯数据库就可以完成的吗?
7、事务能够解决怎样的问题?为啥需要事务——》什么情况下会出现幻读、脏读——》为什么大家不能一个一个读呢?——》并发
8、大数据中有并发这种东西吗——》(有时候解决一个问题是靠技术解决,有时是靠一个规范,有的是使用模式)——》数仓怎么解决这个问题?——》(面试官)从技术层面上来讲早期HDFS是有这个问题的,并行写是有问题的,但这个问题是可以忍受的,一是因为不太用的到并发,实际数仓建设中一个表里在一定时间基本只有一个东西在往里写(delete,insert),二是因为出了点问题是可以接受的,早期谷歌大数据搜索,现在记录日志,很少有数仓一边写一边读
9、大数据在分布式上的作用是啥,从存储、计算的层面来讲哪些比较有特点——》你觉得100台1G的服务器比较贵还是1台100G的服务器比较贵——》(面试官)100台服务器一直都是比较贵,电力、散热等,但不怎么容易坏——》Yarn解决的啥问题——》啥是计算资源——》讲讲Spark的计算这块介绍一下
10、场景:你到现场,没有任何数据平台,给一份文件(数据量极大,以京东白条这种为例),第一列是时间,第二列是用户人名,第三列是消费金额,我现在要做个排序,找出单日消费前10的人,服务器上性能较一般,但啥语言工具都有,你会怎么解决?——》你觉得并行和并发有什么区别——》(面试官)一个大数据任务本质上处理方法是一样的,无非节点多就并行做,节点少就串行做,节点不多不少就整体并行,每个并行里是串行。
11、聊聊你的离线数仓——》为什么企业要建数仓?——》数仓分层的依据——》ODS的中文是啥(回答错了)——》如果ODS和数仓只能留一个,你准备留哪个?(回答错,实际是保留ODS)——》你既然回答的理直气壮,那你觉得ODS为什么还留着,为什么没被干掉?(面试官跳过了)
12、你觉得数仓几个层要被干掉一个,你觉得哪个层要被合并——》DWS(?)
13、你对维度建模理论有了解吗?——》你觉得维度建模理论提出是为了解决啥问题,为什么要搞维度表,事实表,为什么不搞个宽表,2、300个字段堆那?——》你觉得实际工作中宽表用的多不多——》(面试官原话)所以你觉得维度建模理论是扯淡吗(笑)——》你觉得谁喜欢宽表?——》(面试官)政府部门的人相当喜欢宽表,实际工作环境中,不查数据,一般都是要求下载为excel,他只关心本部门的数据,那个数据没有那么多,他也不会写SQL,就要求你整到一起下载到excel让他去操作。
(面试官)为什么这些理论和实际差别很大呢——》早期数仓很贵
ODS最大的价值——》万一领导马上就要数据,数仓来不及跑,可以直接从ODS拿,像泄洪闸一样的方便的东西,另外一般参与ODS建设的人的资历比较老,ODS可以减小,但不能被干掉。
面试官建议:你的逻辑能力、学习能力都不错,再找个方向去积累,数仓有些没那么牛,但可以做很久。#面试##第一次找实习,我建议__##牛客AI配图神器#
全部评论

相关推荐

设备ok了吗 提前开始吧要不可以先给我介绍一下。就比如说你最近或者说印象最深刻的有在做的项目里面,就要介绍一下项目里面比如你负责的一些模块,然后主要有些哪一些难点,然后你是怎么样通过技术上的手段,设计方面的一些方案去解决的,可以吗?我:不用自我介绍了? 面试官:简单自我介绍也可以   ...对,比如说你实习的也可以,或者是你之前做的一些项目都可以。就看一下。比如哪一个你的印象一个是印象最深刻,或者你觉得最能体现你的技术实力的一个项目。我就说我在希音负责的项目需求功能点开发了,然后追问,问的很细很深系统架构是怎么样的,用了什么框架和中间件spring开发的好处是什么AOP有哪几种实现方式,有什么限制和缺点,限制条件之类的arraylist和hashmap的扩容机制实际开发过程中,比如OOM的场景,会针对性对JVM调优和排查吗,排查思路怎么样的除了mysql,还用过什么数据库类型的数据库说一下mysql有几种锁mysql的存储引擎有哪些,常用哪些像mysql这块,你比如说实习或者是自己的项目里面,有什么到什么量级的?因为数据量可以去到多少,然后有没有需要做一些优化的一些手段呢?打开本地IDE共享屏幕,手撕一道算法题在过程开发的过程中,或者是说你项目或的过程中有用到AI去帮助你做一些什么样的东西吗?过了几天就通过了
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务