"Normalization"搜索结果 1 条

如何评价 Meta 新论文 Transformers without Normalization?

一个不负责任的回答: 旨在去掉Normalization的工作,这不是第一篇,肯定也不是最后一篇,早年尝试过一些做法,发现充分训练后至少效果上都不如带Normalization的模型,所以我现在本能地不相信或者说不看好任何去Normalization的工作。 如果需要一个理由,大致上就是Normalization无脑地稳定了模型的前向传播,那么就留了更多的自由度和可能性给模型的其他方面(比如效果),所以从No Free Lunch的角度来看,我不认为比有Normali…