大数据研修

大数据建模、分析、挖掘技术应用研修

2022年8月5日 — 2022年8月9日  北京(同时转线上直播)

(5日报到,6日-9日上课)

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

一、大数据概述

1.大数据及特点分析

2.大数据关健技术

3.大数据计算模式

4.大数据应用实例

二、大数据处理架构Hadoop

1.Hadoop项目结构

2.Hadoop安装与使用

3.Hadoop集群的部署与使用

4.Hadoop 代表性组件

1.Hadoop Single Node Cluster

2. Hadoop Multi Node Cluster

三、分布式文件系统HDFS

1.HDFS体系结构

2.HDFS存储

3.HDFS数据读写过程

1.创建与查看HDFS目录

2.从本地计算复制文件到HDFS

3.将HDFS文件复制到本地计算机

4.复制与删除HDFS文件

5.Hadoop HDFS Web浏览HDFS

四、分布式数据库HBase

1.HBase访问接口

2.HBase数据类型

3.HBase实现原理

4.HBase运行机制

5.HBase应用

五、MapReduce

1.MapReduce体系结构

2.MapReduce工作流程

3.资源管理调度框架YARN

4.MapReduce应用

六、Spark

1.Spark生态与运行架构

2.Spark SQL

3.Spark部署与应用方式

1.Python Spark 安装

2.本地运行pyspark程序

3.在Hadoop YARN 运行pyspark

4.Spark Web UI

七、IPython Notebook运行Python Spark程序

1.Anaconda

2.IPython Notebook使用Spark

3.使用IPython Notebook在Hadoop YARN模式运行

1.在不同模式运行IPython Notebook运行Python Spark命令

2.Python 程序开发

八、Python Spark集成开发环境

1.Python Spark集成开发环境部署配置

2.Spark数据分析库MLlib的开发部署

Spark MLlib应用程序示例

九、Python Spark决策树二分类与多分类

1.决策树原理

2.大数据问题

3.决策树二分类

4.决策树多分类

1.搜集数据

2.数据准备:导入并转换数据、提取特征字段、提取标签

3. Python Spark建模,训练模型

4.预测数据

5.评估数据,给出评价指标并得到评估结果

十、Python Spark支持向量机

1.支持向量机SVM 原理与算法

2.Python Spark SVM程序设计

1.数据准备

2.建立SVM模型,训练模型

3.评估参数并找出最优参数

4.根据模型进行预测

十一、Python Spark 贝叶斯模型

1.朴素贝叶斯模型原理

2.Python Spark贝叶斯模型程序设计

1.建模贝叶斯模型,并进行对参数估计

2.训练模型,得到最优参数

3.根据模型进行预测

十二、Python Spark逻辑回归

1.逻辑回归原理

2.Python Spark逻辑回归程序设计

1.Python Spark逻辑回归建模

2.根据模型进行分类

十三、Python Spark回归分析

1.大数据分析

2.数据集介绍

3.Python Spark回归程序设计

1.数据准备

2.训练回归模型

3.建立评估指标

4.训练回归模型,并找到最优参数

5.根据模型进行预测

十四、Spark ML Pipeline 机器学习流程分类

1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

1.数据准备

2.建立机器学习Pipeline流程

3.使用Pipeline流程训练

4.使用PipelineModel预测

5.评估模型准备率

十五、Python Spark 创建推荐引擎

1.推荐算法

2.推荐引擎大数据分析使用场景

3.推荐引擎设计

1.搜索数据

2.准备数据

3.训练模型

4.使用模型进行推荐

十六、项目实践

1.日志分析系统与日志挖掘项目实践

a、Hadoop,Spark,ELK技术构建日志数据仓库

b、互联网微博日志分析系统项目

1.推荐系统项目实践

a、电影数据分析与个性化推荐关联分析项目

#计算机网络知识点总结#
全部评论
整理的很全面,把这些都搞明白了,那拿offer不是事
点赞 回复 分享
发布于 2022-08-03 15:48

相关推荐

kkk22:刘潇同学 你的简历挡了个寂寞
点赞 评论 收藏
分享
面试官人很好,态度和蔼可亲,没答出来时也会引导你去思考。由于是晚上面的,导致我白天一天都有点紧张,面的时候状态也不是很好,正常可能面试官提问完应该思考几秒再答,而我就像抢答一样一口气把所有会的都说出来,这样就导致逻辑比较混乱,东一句西一句的。首先是自我介绍,先把会的技术大致讲一下,由于我八股背的多所以着重讲了一下,Java,go,jvm,MySQL,Redis,计网,操作系统这些,然后一小部分闲聊,然后先问了一下项目,面试官问我这个项目是否落实之类的,直接坦言说是写的练手的,包括之前也写过IM通讯,外卖之类的。然后面试官就把提问的重点放在了八股上。先问了Java:类加载器(答:3种+自定义类加载器、tomcat、原因+双亲委派+好处)JVM参数(答:xmx,xms,newsize这些,问我是如何设定的,我回答是把内存分一半给堆,再把堆分一半给新生代,这方面确实不太了解)然后问了一下并发相关的:线程池(答:线程池的7个参数(忘了线程工厂和阻塞时间了),3个重要参数,还有线程如何启用,为什么要设计最大线程数之类的,提到Java栈默认分配1MB运行时不可以更改)AQS(答:先讲clh是自旋锁+list,然后是AQS在这个基础上做的两个优化,然后举了一下reentrantlock根据state如何获取资源)CAS(答:使用三个字段,aba问题,然后将通常搭配自旋锁实现,面试官问通常会自旋多少次,这个不太了解,答的100,然后问100次大概多少秒,回答微秒级,然后面试官讲了一下怎么做资源可能没用完,意识到可能还需要进行阻塞操作)然后考虑一下Linux命令(top,ps,如何使用管道符过滤线程和使用Linux启动线程没答出来)然后问Redis:持久化机制(答:三种aof,rdb,混合,aof的三个参数刷盘策略,rdb以快照保存,使用bgsave会使用子线程来保存不会阻塞,而aof虽然会阻塞但是只在写完数据后追加一条命令,不会太影响,然后是他俩的优缺点,还有混合是怎么保存数据的)集群模式(答:三种,主从复制到缺点再到哨兵机制,正常使用三个哨兵互相监督,主节点挂了投票选主哨兵然后选主节点,然后额外讲一下脑裂的问题,主节点进行数据更新然后把命令写入aof来同步从节点,最后cluster集群,如何实现,使用16383个哈希槽(艹答成16384了),先根据哈希码取余,再根据节点数取余决定放在哪个节点上,然后问了一下我会怎么选集群模式,首先是cluster的问题,会让管道操作之类的失效,然后哨兵会导致整个集群结构变得复杂,使用小项目可能会考虑哨兵,大的考虑cluster,然后考了一下cluster如果一个节点挂了怎么办,根据节点数重新取余然后数据转移,面试官说这么转移比较慢,有没有别的办法,我隐约记得使用一个类似环形数组的方式,想不起来了)然后考了一下MySQL的b+树(这方面的知识点太多了,导致我什么都想讲逻辑就比较乱,讲了一下聚簇索引,树的叶子节点对应着一张页16KB,MySQL有一个区的概念,把这些页放在同一个区中,这样叶子节点的双向链表遍历时速度更快,然后b+树的扇出比较大(非常二,说成扇度之类的,面试官以为说的是扇区)这样层数就比较小,一行1kb数据的话3层可以放心2000w数据)其他的暂时想不起来了算法是lru,面试官问要不要提示,我说写个,然后写了10分钟左右,说大概写好了,但是面试官指出了2个小错误,第一个马上就改回来了,第二个一直没看出来(大脑这时候已经停止工作了)反问:问学习建议,说根据实际的项目进行深入,考虑应该怎么做,还问了一下组里面是做Java的吗?面试官说他是做go的,组里什么语言都有,语言影响不大,连忙补充了一句我对go的底层有深入源码的学习)结束。总体感觉答得不太好,没有太体现出深度,细节也不够全面。
下一个更好呗:佬,我投完云智一直没消息,多久约的一面啊
查看14道真题和解析
点赞 评论 收藏
分享
评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客企业服务