1.说下之前实习经历,以及都使用了什么样的技术栈2.说下MR和spark的区别,为什么spark会更快,说下两者shuffle的区别3.ReduceByKey和GroupByKey区别4.Mysql怎么处理大数据量下的性能问题,了解过分库,分表吗5.说下了解哪些mysql的索引6.如果枚举值不多的情况下,数据量有几百万的数据,这种情况下用哪种索引合适一些7.如果是两个枚举值的话呢?比如说性别,了解过bitmap吗8.说一下物化视图和视图9.说一下星型模型和雪花模型10.什么情况用星型模型,什么时候适合用雪花模型11.事实表记录着什么样的数据12.累计快照事实表,周期快照事实表13.说一下缓慢变化维14.说一下拉链表的整个数据表结构是什么样两道linux命令 两道sql