Mini-Batch 为偶数的时候,梯度下降算法训练的更快
Mini-Batch 设为 2 的幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理
不使用偶数时,损失函数是不稳定的
其他选项说法都不对
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题