为什么Ilya说LSTM是一个旋转90度的ResNet?
发布时间:
2024-12-15 21:52
阅读量:
8
这说法我一直都不认同
认同这说法就
相当于认同Schmidhuber是ResNet之父
是attention之父,是GAN之父
但实际上,LSTM长期无法超过三层
因为训练不动深层LSTM
这不就是kaiming解决的核心问题
大家曾经或多或少都发现LSTM里面的long term memory,就很像token level的skip connection
但是那是用gating机制来实现的
就是历史信息要忘掉多少gating一下
新的信息要加进来多少gating一下
这想法其实非常传统 并没有残差的视角和思想
回答问题前,我并没有听伊利亚的talk;回答后,我去听了下,我没理解错他的意思。
另外,我恰恰觉得这个talk里最值得讨论的是这个
大脑和身体那张slide?伊利亚想表达的到底是什么?
END