深度学习基础 1.为什么使用多头注意力机制? 2.Transformers中positional embedding为什么要使用sin,cos设计,可以直接用1到512代替吗? 3.介绍一下dropout和normalization以及他们在训练和预测时的区别,如何解决batch normalization在训练和预测时统计量不一致的问题? 4.L1正则化与L2正则化的区别? 5.反向传播递推式 6、self-attention的Q·K如果不除以根号d_k而是除以最大值怎么样? 7、现在有一万亿个矩阵相乘,使用python运算那么应该使用线程还是使用进程? 8、电脑是怎么把代码转换成可执行程序...