荣耀：2022秋招推荐搜索工程师一面

自我介绍、论文
论文模型中学习率、batch size 以及其他参数是如何调优的

学习率使用模拟退火优化，初始值设置的稍大。

Batch Size 设置的尽可能大来提高学习的效率，并根据具体结果适当调整。

其他参数网格搜索。
介绍 LSTM-> Transformer -> BERT

传统 RNN 存在长期依赖的梯度问题，被 LSTM 通过三个门控解决，GRU 进一步将门控数量优化至一个从而提高了计算的效率；

Transformer 是基于 Multi-Head Attention 构建的序列处理模型，通过对每一个元素计算其他所有元素的注意力分数避免了长期依赖导致的梯度问题，多个 Head 可并行进行相比于 RNN 类模型进一步提高了计算效率，通过使用 Positional Encoding 来处理 Attention 位置不敏感的问题；

BERT 将 Transformer 作为基本模块，并设计了两个预训练任务（上下文预测、单词预测），是对 Transformer 类模型训练过程的进一步完备。
Attention
- 多头注意力的作用
  
  通过多组独立的参数并行地计算，能更好地学习特征多样性的同时也有着更快的计算速度。
- QK相乘后除以 $\sqrt{d}$ 的作用
  
  缩放值域缓解梯度问题。矩阵乘法的值域是 $[-\infty,\infty]$ 使用 $\sqrt{d}$ 缩放后一定程度上缓解梯度问题。
梯度消失和梯度爆炸的原因、解决方案

根本原因：反向传播的链式求导；

解决方案：特征正则化、残差连接、梯度裁剪等。
介绍树模型 -> 随机森林 -> GBDT -> XGBoost

基础的决策树模型每次通过从所有未使用的属性集合中选择收益最大的一个属性进行分枝（划分）并通过前后剪枝进行优化；

随机森林是使用决策树为基学习器的 Bagging 模型，每一颗决策树使用随机一部分属性集合进行构建，多棵树独立地计算并组合其结果作为输出；

GBDT 则是将决策树为基学习器的 Boosting 模型，每棵树基于上一颗树的输出进行构建，存在计算上的依赖关系，构建时按照梯度上升的方向在所有未使用属性集合中选择属性进行构建。

XGBoost 则可以被看成是 GBDT 的优化与工程实现，在正则项、缺失值处理、随机数据（属性）采样、多分类器等方面进行了优化。
Python 是否适合用于多线程编程

GIL使得计算时 Python 多线程是串行的，IO 等待时则可以并行。

因此 GIL 的存在，导致 Python 不适用于计算密集型的任务，对于 IO 密集型的没有太大问题。
Coding：（共享屏幕使用本地IDE）

给定若干个物品的尺寸和箱子大小，输出能装满箱子的所有组合方案数。

如给定 items = [1,2,3,4,5], box_size = 6 ，输出 [[1,2,3],[1,5],[2,4]] 。

参考 NC46 加起来和为目标值的组合(二)。
是否有过推荐系统的应用与实践