为什么Ilya说LSTM是一个旋转90度的ResNet?

发布时间:
2024-12-15 21:52
阅读量:
8

这说法我一直都不认同

认同这说法就

相当于认同Schmidhuber是ResNet之父

是attention之父,是GAN之父

但实际上,LSTM长期无法超过三层

因为训练不动深层LSTM

这不就是kaiming解决的核心问题

大家曾经或多或少都发现LSTM里面的long term memory,就很像token level的skip connection

但是那是用gating机制来实现的

就是历史信息要忘掉多少gating一下

新的信息要加进来多少gating一下

这想法其实非常传统 并没有残差的视角和思想


回答问题前,我并没有听伊利亚的talk;回答后,我去听了下,我没理解错他的意思。


另外,我恰恰觉得这个talk里最值得讨论的是这个

大脑和身体那张slide?伊利亚想表达的到底是什么?

END