这是什么

实践的内容及要求
    为了减少数据平台的硬件成本及维护成本,需将oracle、mysql、hive小集群的数据全部集中到hive大集群中,统一管理。
同步内容分为两块,历史数据和当前数据,历史数据全部备份在磁盘,以文件形式保存;当前数据在相应的数据库中。同步要求,同步之后需保证表结构完全一样,数据量完全一样。
    另外需调研目前最流行数据同步技术,根据目前公司业务,做出可持续使用数据同步系统。

实践的地点及项目安排
地点:
进度安排:

1.2019年3月24到2019年4月5号做项目调研,调查目前主流的数据同步工具及学习相关工具的使用。

2.2019年4月5号到2019年4月12号做技术商讨,制定各种数据库之间的同步方案,一共三种:文件同步到hive、关系型数据库到hive、hive到hive

3.2019年4月12号到5月12号做平台部署、开发各种数据同步模板及测试。

4.5月12号到8月12号,做同步数据

5.8月12号到8月16号验收



专业实践记录表:
1.2019年3月24日 ~ 2019年4月5号
    调研腾讯、阿狸、华为等一线科技公司,数据平台的架构,数据同步及使用的工具。对比各种方案的优缺点及使用场景,并学习其中同步工具的使用。整理出一份最优的同步方案,制作APP,每周分享成果及进度。

2.2019年4月5日到2019年4月12日
    第一:做技术商讨,针对文件同步到hive、关系型数据库到hive、hive同步到hive等情况,讨论每种需求的元数据同步方案及数据同步方案,确定统一同步方案。
    第二:做项目规划及任务分配。

3.2019年4月12号到5月12日
    第一:对数据的结构进行分析,制作模板,分别为日增量、日全量、月增量、月全量,另外每种情况又分为分区和不分区。
    第二:创建测试数据,对模板进行测试、修改、优化、最终上线。

4.5月12号到8月12号
    使用模板开始同步数据,同步中会需要各种异常,实际生产环境中情况会不调研时复杂的多,比如hive中会出现二级分区、目录和分区字段不一致等情况。不要不断对模板优化,必要时需另外开发新模板。

5.8月12号到8月16号
    对数据进行验收,写脚本分别统计源库及目标库的数据量,进行对比,如果数据量一样可验收通过。

#实习#
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务