一面: 什么是索引? 特征选择的方法?(无监督、有监督) 大数据处理:文件大小为1G,找出频率最高的100个(hash+归并,Trie树) 数据挖掘的流程 数据结构:有哪些树(红黑树、AVL、B、B+) 手写二分 编程:1000个数,输出指定范围的数字(考察 算法复杂度的估计) 有哪些排序算法?请说一下快速排序的大致原理 聚类算法 有哪些? 简述k-means 算法,聚类中心如何计算? Map-Reduce原理、流程 特征工程有哪些 如何使模型训练最优 线性回归的原理,手推线性回归公式 python 与 C++的区别 python代码为何...