如何评价 Meta 新论文 Transformers without Normalization?
发布时间:
2025-03-15 21:00
阅读量:
3
一个不负责任的回答:
旨在去掉Normalization的工作,这不是第一篇,肯定也不是最后一篇,早年尝试过一些做法,发现充分训练后至少效果上都不如带Normalization的模型,所以我现在本能地不相信或者说不看好任何去Normalization的工作。
如果需要一个理由,大致上就是Normalization无脑地稳定了模型的前向传播,那么就留了更多的自由度和可能性给模型的其他方面(比如效果),所以从No Free Lunch的角度来看,我不认为比有Normalization更简化的操作能实现更好的效果,除非模型的stablity非常次要的场景。
当然,作为一次学术上的极限探索是没有问题的,正如nGPT的normalize everything一样,它算是另一个极端的探索,我期待它能发现一些关于优化的更本质的结论,但目前看来没有。
END