2025年大模型LLM还有哪些可研究的方向?
发布时间:
2025-03-19 08:06
阅读量:
3
抛砖引玉一下。我觉得现在其实很多原理上的问题甚至都还没解决,例如,llm数strawberry的r,乍看起来好像很自然,但tokenizer切分subword可从没向llm暴露subword的组成,那么llm是从哪些数据或者哪些模式学到这个token包含多少个某字母呢?类似的,现在的llm可以写押韵的歌词,tokenizer可从没暴露这个token的发音,这又是llm从哪些数据学到的呢?如果真的用sae等工具分析,似乎总能得到一些惊世骇俗的结论,例如和圣经的激活模式相关——但考虑到sae常常建立伪相关性,这似乎又不太可信——哪怕真的都怪某些特定文本的训练数据,那么为什么会产生这一效果呢?
类似的,大家如果关注过llm的attn模式,会很快发现llm对分隔符有非常大的attn score,这引出了如今attn sink/massive attn一系列工作,但是还原论的视角来看,分隔符真的这么重要吗,llm高度关注分隔符时究竟在干什么?
还有非常多的未解之谜,我很难想象在深度理解这些问题前能有办法设计突破性的meta-learning 层技术。当然,在不同的抽象层上仍然有许多能做,例如更深一层做infra,或更低一层做agent,但是未解之谜总是吸引人们的好奇心。
END