
对人工智能毫无了解,导师让看transformer和BERT的两篇论文。好几天了,基本没看懂,何解?
B站有个大佬,王树森,他讲这些模型,会带着你完整走一遍各种原理和运算。 我第一次听的时候都惊了,讲attention机制的时候,硬是走了三个词,把计算过程重复了三遍。有耐心到吓人。 鉴于有人找不到,我贴一下链接: 【RNN模型与NLP应用(1/9):数据处理基础-哔哩哔哩】 https://b23.tv/gkuoapF 这个系列层层递进,从普通的RNN一直谈到Transformer和bert,还谈了一下transformer架构在视觉的应用ViT模型。每个视频10多分钟,非常清晰…
如何评价 Meta 新论文 Transformers without Normalization?
一个不负责任的回答: 旨在去掉Normalization的工作,这不是第一篇,肯定也不是最后一篇,早年尝试过一些做法,发现充分训练后至少效果上都不如带Normalization的模型,所以我现在本能地不相信或者说不看好任何去Normalization的工作。 如果需要一个理由,大致上就是Normalization无脑地稳定了模型的前向传播,那么就留了更多的自由度和可能性给模型的其他方面(比如效果),所以从No Free Lunch的角度来看,我不认为比有Normali…