2022年底,ChatGPT 如一道闪电划破AI夜空,宣告大语言模型(Large Language Models, LLMs)正式进入主流视野。短短三年间,模型参数从百亿(Llama-7B)飙升至四千亿(Llama-3.1-405B),性能屡破纪录,应用场景从文本生成扩展到代码、推理、多模态乃至智能体决策。这一狂飙突进的背后,是一条被广泛信奉的“铁律”——Scaling Law(缩放律):只要持续增加模型参数和训练数据,性能就会不断提升。
然而,Scaling Law 的胜利也带来了沉重代价。训练一个千亿级模型动辄耗费数千万美元,推理一次复杂任务可能需要数秒甚至数十秒,部署在云端的API调用费用曾一度高达每百万token 20美元(GPT-3.5, 2022)。更严峻的是,推理成本已悄然超过训练成本,成为限制LLM落地的最大瓶颈。企业开始意识到:一个“性能顶尖但贵得离谱”的模型,未必比一个“略逊一筹但便宜十倍”的模型更有商业价值。
与此同时,一场“效率革命”正在悄然上演。2024年,OpenAI 推出 GPT-4o-mini,性能接近GPT-4,价格却仅为后者的1/10;Google 发布 Gemini-1.5-Flash,推理速度提升十倍,成本骤降;Apple 更是在iPhone 16中集成 Apple Intelligence,将LLM直接部署到手机端。这些“小巧高效”的模型引发了一个根本性问题:
大模型的发展,是否正从“唯规模论”转向“唯效率论”?
如果答案是肯定的,那么我们该如何量化这种效率进步?是否存在一条像 Scaling Law 那样简洁而普适的规律,来描述大模型在“单位参数智能含量”上的演进趋势?
正是在这样的背景下,清华大学与 OpenBMB 团队于2025年11月在 Nature Machine Intelligence 发表重磅论文《Densing Law of LLMs》(《大语言模型的密度定律》),首次提出 “能力密度”(Capability Density) 这一核心概念,并揭示了一个令人震撼的经验规律:
2017年,Transformer 架构横空出世;2020年,Scaling Law 为大模型指明了“越大越强”的扩张路径;而今天,Densing Law 的提出,标志着大模型发展正式迈入“精耕时代”。如果说 Scaling Law 关注的是能力的上限(即给定算力下模型性能的理论天花板),那么 Densing Law 关注的则是效率的地板(即达成特定性能所需的最低资源门槛)。前者回答“我们能走多远”,后者回答“我们能走多快、多省、多普惠”。