机器学习算法工程师   我觉得挺难的QAQ   一面:   1、项目相关   1)Transformer中attention和self-attention的区别   2)Q,K,V如果只留2个,哪两个可以合并 (把原理答了一遍最后答错了   3)Bert embedding过程   4)LSTM有哪些门   5)LSTM里面hidden和sharing的区别 (没答出来,不太熟   6)SVM用于一个数据集 随机删除一半 超平面会有大概率相同吗(把原理答了一遍最后答错了   7)判别模型和生成模型的区别(瞎答   8)Bagging和Boosting的区别      2、写题   1)dp, ...