

为什么Ilya说LSTM是一个旋转90度的ResNet?
这说法我一直都不认同 认同这说法就 相当于认同Schmidhuber是ResNet之父 是attention之父,是GAN之父 但实际上,LSTM长期无法超过三层 因为训练不动深层LSTM 这不就是kaiming解决的核心问题 大家曾经或多或少都发现LSTM里面的long term memory,就很像token level的skip connection 但是那是用gating机制来实现的 就是历史信息要忘掉多少gating一下 新的信息要加进来多少gating一下 这想法其实非常传统 并没有残差的视角和思想 …