1. 写一下 attention 公式,代码实现一下attention 的公式是:计算过程就是三步:先算 (Q) 和 (K) 的相似度分数,再做缩放,然后过 softmax 得到权重,最后用这个权重对 (V) 加权求和。 import numpy as np def softmax(x): x = x - np.max(x, axis=-1, keepdims=True) exp_x = np.exp(x) return exp_x / np.sum(exp_x, axis=-1, keepdims=True) def attention(Q, K, V): dk = Q.shape[-1] ...