引言
近期跟好多个算是AI业内的人聊天,当我聊到“你感觉DeepSeek发布是不是很久很久之前的事情了?其实才过去了几个月。“时,几乎所有人都感觉很惊讶,因为确实有一种过去了很久、好几年的感觉,但其实也就是2025年年初,也就刚刚过去半年多。
需要说明的,这些所谓的业内人士,没有一个是真正开发或者训练大语言模型(LLM)的,而是围绕LLM做AI应用、Tooling、Platform,以及运营营销等的,所以这个样本不能代表所谓AI业内所有人的感觉。
从心理学上分析,如果一段时间感觉过得很慢,主要有如下原因:
-
世界变化快,或者说事件太多。回想一下确实有道理,各厂家像军备竞赛一样出新模型,Open Source models、Proprietary models、From proprietary to open source,包括GPT 4.5、Gemini 2.5、Qwen 3、Llama 4、Kimi 2、GPT 5,Claude 4.5,以及Pangu,等等。围绕这些模型,从芯片到操作系统到工具到平台,大家都在主动或者被动地跟进,连书店的畅销区都堆满了看着就没有什么阅读欲望的AI领域的书籍,我极其怀疑很多书也是AI写的。
-
高度专注沉浸其中。被裹挟着,很多团队和个人都在高速前进,各种集中攻关、0 day支持(其实大部分怎么说也是0.1 day,从芯片角度说,真正的0 day只能是训练时用到的)、宣传造势。喧嚣之后,感觉过去很遥远。
同时,不少人也开始表现出疲态,开始对新发布的模型无所谓了。为什么呢?
为什么新发布的大语言模型没有让人那么兴奋了?
问为什么之前先问是不是。以用户的身份,我代表我自己,可以100%确认我没有那么兴奋了,之前还保持着第一时间部署一下,或者至少找个平台试用一下,到后来出新版本,都是延迟体验甚至不体验。
究其原因,可能有两个:
-
产品原因。问答、搜索、代码、文章等普通用途,似乎没有哪个特别出众。高级的用途都很拉垮,在图片中写段汉字节约时间,发现无论是Google的Nano Banana还是其他一众所谓的模型,都会生成个看起来像汉字的图片,垃圾。视频更是,虽然均有进步,但即使是最新发布的Sora 3,感觉仍然是凑个热闹的水平。产品竞争力真的不行,如果要怪用户不怎么会用,更加证明产品竞争力不行,回想一下,早期的功能机和智能手机都是有使用说明书的,但iPhone居然没有。
-
个人原因。个人可能有原因,对不够完美的产品的了解不够深入,不能在不完美的情况下完美使用。就这样吧。
LLM上升曲线变慢的原因
先抛总结性说明,对人工智能发展的三大流派进行一个总结(个人总结,未必那么权威)。
- 基于知识
这个流派认为智能是基于知识和逻辑推理进行的,最典型的是看医生,根据望闻问切的结果(病症),结合知识(什么情况下可能是什么病,需要什么药),以及知识链,推理出最终的结果。
这个流派在早期有大量成果,例如辅助问诊、图书分类等。
但这类系统也有一个根本上的痛点,知识需要被描述后转换成计算机可以理解的规则,但知识的可被描述性其实不强,或者所语言天然就损失信息,所以这个流派到了复杂的场景后就暂时停滞了。
- 基于数据
ImageNet大概是早期证明这一流派可行的,一个“无脑”的网络学习大量图片信息(训练)后,从“数据”中找到了所谓的规律,从而可以认识陌生图片(推理)。
这个流派为了能够处理语言,发展出了RNN和Transformer两个技术流,其中Transformer成了现在耳熟能详的大模型的基础结构。
但,这个流派本质上还是假设已有的数据蕴含着知识,而不是智能。人类的知识 > 写下来的文字 > 文字中蕴含的无误的知识。这个流派不会产生智能,本质上还是“鹦鹉学舌”,“猜字游戏”。
- 类脑
人类对与智能的认识还远未达到100%,人类对生物意义上人的认识也是非常浅,所以所谓的类脑这个流派是一个在探索中但短期内恐怕很难有实质性突破的。
有三个流派,但不代表他们是泾渭分明的,互相借鉴和混合,可能可以得出一个更为优秀的“模型”。
按照结果论看,不同领域的模型已经有可用的模型,但结构不同。多结构混合的MoE,或者AI系统,会更强大(综合考虑能力和成本)。
混合获取知识的不同方式,也会有前途,策略-价值函数-感知-世界模型,这个自学习的过程中,每一部分都可以用不同的模型或者算法进行替代,进而可能产生出新的结果。
综合来讲,LLM上升曲线变缓是因为LLM基于数据的根本思路导致的。
做AI领域开源基础软件,路在何方?
“市面”上的一有模型结构和对应的工具,大体成熟。新的模型引入新的工具软件特性,而目前可见的新模型依然是Transformer结构的。
以Transformer为基础的模型和配套软件,“卷”的方向就是资源利用率,这个方向虽然有优化空间,但恐怕也不需要“只争朝夕”了,慢一天两天的没啥,质量和社区可持续发展可能是王道。
新的理论(类似2017年的论文All you need is attention)什么时候会出来不好预测,从出来到落地会需要时间,也不争朝夕。
“旧”的结构的混合可能会有新的方向,各种结构组合在一起,会加剧对异构芯片和网络的需求,因为不同模型在不同的芯片上才能最优,目前的模型还都是笨方法所以都很大,大就会需要集群,集群就会涉及网络。
所以,自问自答这个问题可能是在如下方向:
-
发展和维护好一个懂AI的Open Source Community。有知识有追求的一群人是最关键的,可以立于不败之地。
-
复盘学习各种流派的模型结构及其工具软件特征。
-
往计算的底层钻,在集群场景下,如何减少“层”,寻求软件性能和易维护性的平衡。