岗位:Data Science     话不多说!!直接上干货!!!!     首先是数据分析自学经验     关于我:本硕都是读的计算机专业(数科这个岗位对于学统计学的同学来讲比较对口T.T),并且我周围没有做数科的师兄师姐和同学,毕业后大部分都去了前后端研发岗和测开岗,只能自己摸索,也走了不少弯路,所以在这里跟大家分享一下我的经验吧,希望会对你们有所帮助~      技术栈:Python / mysql —— 机器学习 —— 统计学 —— 数据分析项目 —— 业务分析 - - - 大数据    这个没什么捷径,静下心来学吧,以下这些排除工作时间和前期低效的摸索阶段,满打满算准备了3个月吧,每天保证6小时的净学习时间:    · Python / mysql掌握的程度就是能够手动实现业务指标,比如根据数据实现日活和各种率等等,常用的pandas函数需要掌握,数据库开窗函数要知道;    · 机器学习的话不用各个模型全都会,掌握常见的比如LR、SVM、GBDT,常用的模型方法比如梯度下降、防止过拟合要掌握,模型优缺点啥的也要知道;    · 统计学主要掌握正态分布、伯努利分布、二项分布、T检验、卡方检验、方差分析、置信区间,最好找几个小案例练练;    · 数据分析项目就看自己了,面试官问的很细,做到什么程度就写到什么程度!!千万不要抱有侥幸心理!!(因为你根本想不到关于项目会问什么);      · 业务分析对于各位做技术的来讲可能是最头疼的,因为我也是!!!乍一看,什么推断北京有几个咖啡厅,什么竞品分析,什么判断是否要新增某项功能 ....    学习这个没啥捷径,多看多想!我认为方法论还是蛮重要的。强推《深入浅出数据分析》,关于业务还需要掌握一个很重要的方法ABTest。    · 大数据具体点来讲可以学学spark和hive,有的公司(腾讯、京东、映客、陌陌...)会问你懂不懂大数据技术,这个很加分的,但如果时间不够可以先不学,大不了不加分呗~   建议去Bzhan看一下尚硅谷的spark和hive视频,自己搭一下环境,动手敲一遍,spark主要是根据源码学会spark的处理流程框架,能够口述出来,hive就是掌握一些常见的函数,学会处理一些常见小问题(google一下hive常见面试考点)       ****** 以上只是我自己的学习经验和技术路线,当然希望大家多多补充、多多提建议!******           下面是这次面试的流程   一面:     1、自我介绍,最好自己先事先准备下,自我介绍也是体现逻辑是否清晰的一种形式;    2、介绍项目,最好也事先准备下,把自己做的数分项目理清楚,不相干的项目就别说了!(比如Java开发、大数据开发相关),在说的过程中一般会打断你问一下,这个地方怎么实现的,用到什么函数,为什么这么实现等等;    3、聊天过程中突如起来的场景分析,第一个场景是国内某打车软件去年发生了不好的事件,该打车软件后来做了一个分析报告其中有个指标是每英里的犯罪率,问:为什么要用英里?答:因为国内的打车类app还不是很成熟,但是国外做这个已经很久了,所以希望跟国外的各参数进行对标;第二个场景是交通事故的严重级别分为五档(死亡、ICU、重伤、轻伤、剐蹭),现在要统计交通事故数,问:统计口径取多大,两种选择,取前四个级别还是全部都取,答:取前四个,因为剐蹭的话很多都私了了,并不会进行登记,所以统计数据缺失会比较严重,造成数据真实性与真实相差较大;   4、用过Python的透视表吗?怎么用,什么场景用,参数的意义... pivot_table函数,不展开了;    5、两个实际业务的描述,用什么方法解决?... t检验;多个呢?... 方差分析;为什么叫方差分析? ... 解释方差分析流程;    6、介绍下熟悉的机器学习模型,svm、xgboost,流程、特点,怎么防止过拟合,过拟合拟合的是什么... 抠的比较细,如何选择一个机器学习模型,会参考哪些因素,剩下的忘记了,还有个问题;    7、有什么想问的?       二面:    1、自我介绍,相同的介绍再说一遍好尴尬,hiahia    2、介绍项目,这次问的更细,都是根据项目展开的就不多说了,就一句话,自己做到哪儿简历就写到哪儿,莫要掺假;(二面主要就是抠项目)    3、关于pandas常用函数,怎么用;    4、有什么要问的?       leader面:    加周末一共间隔了4天被通知前两面过了,安排了三面    1、自我介绍    2、还是介绍项目,这次问的很有个性,总之还是在细抠;回答的时候逻辑性不是很好,都开始自我怀疑这项目到底是不是我做的,哈哈;    3、快手搜索功能的使用率下降了怎么分析,产品、用户角度分别拆分指标去考虑,会根据你的回答一直深入去问,直到答不上来...;想要增加模糊搜索的功能,怎么实施?我是从推荐系统的角度去分析的,基于协同过滤和矩阵因子分解,具体就是利用隐语义模型LFM构建相似度矩阵,利用交替最小二乘ALS得到最优解,当然还是会根据回答继续深挖,直到回答不上来...    4、有什么问题?    说实话三面面的稀碎,以为要被挂了...T。T       过了两天,hr打来电话说过了~ 很开心~ 再次感谢快手爸爸!祝各位早日上岸!      
点赞 41
评论 19
全部评论

相关推荐

不愿透露姓名的神秘牛友
07-23 14:22
点赞 评论 收藏
分享
写不来代码的小黑:这么小的城市能有做it的公司也不容易
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务