你需要在一个序列建模系统中,给长度为 n 的输入序列做“有限入度”的注意力连边选择,使得信息总量最大。具体约定如下:
- 每个位置 j 携带一个 d 维实数特征向量 Xj(所有向量均非零),以及一个整数容量 cj,表示该位置最多可以接收来自它之前位置的连边条数。
- 先对每个向量做 RMSNorm 归一化:对向量的每个分量除以“各分量平方的平均值再开根号”。等价地,若向量为 x,则 rms = sqrt((x[0]^2 + ... + x[d-1]^2)/d),归一化向量为 x/rms。此处归一化不使用偏置与缩放(gamma=1,epsilon=0)。
- 对任意一对位置 i<j,计算缩放点积 a(i,j) = (x̂(i) · x̂(j)) / sqrt(d),再取平方 a(i,j)^2 作为该连边的“贡献值”。
- 对于每个 j,从所有 i<j 的候选连边里,最多挑 cj 条,使得全局目标 S = Σj Σi<j chosen a(i,j)^2 最大。
- 输出 round(100 * S) 的整数值。
