对人工智能毫无了解,导师让看transformer和BERT的两篇论文。好几天了,基本没看懂,何解?
B站有个大佬,王树森,他讲这些模型,会带着你完整走一遍各种原理和运算。
我第一次听的时候都惊了,讲attention机制的时候,硬是走了三个词,把计算过程重复了三遍。有耐心到吓人。
鉴于有人找不到,我贴一下链接:
【RNN模型与NLP应用(1/9):数据处理基础-哔哩哔哩】
https://b23.tv/gkuoapF这个系列层层递进,从普通的RNN一直谈到Transformer和bert,还谈了一下transformer架构在视觉的应用ViT模型。每个视频10多分钟,非常清晰易懂。
下面是对于入门深度学习的建议(入门阶段):
1️⃣动手 > 看论文/看课本。大概了解模型原理之后可以先用成熟的开源库,来进行一些小任务。如果自己写不出完整的程序,可以先找一个别人写完的小项目进行修改。大家都是从改代码、调参数开始的。
2️⃣有问题随时问deepseek/chatgpt。代码不会写、框架不会用、原理有疑惑、计算细节不懂,都可以问大模型。
3️⃣不需要强迫自己把看懂的模型手动实现一遍。你不太懂的时候,强行实现一版模型,也没法悟透原理,甚至无法帮你记住各种细节。还是那句话,用的多了、调的细了,自然就通了。
4️⃣深度学习最大的好处就是,你为了实现一个任务,很多时候都可以把模型看作是黑箱,用起来一点阻力都没有。你不太懂的时候,就已经有能力进行实践。
5️⃣学习不止一遍,早期要抑制你的学习欲望,尤其是看论文的欲望。等你动手有感觉了,回去再看一遍这些基本论文,你会发现特别清晰,特别容易懂。有个好的起点,后面再拓宽到别的论文就非常顺。早期不要轻易拓展论文,你不要自己越学越多,你不需要了解这些论文的前因后果也能读懂他们。扩展读论文,要让任务带着你读,实际的需要,会教会你怎么从论文之中筛选自己需要的东西。
6️⃣最后是要有耐心。入门深度学习说长不长,说短也不短,至少半年还是需要的。认真搞半年,整个人就脱胎换骨了。