唐杰、杨植麟、林俊旸、姚顺雨:他们眼中的 AGI 三个转折点...

出品|虎嗅科技组
作者|宋思杭
编辑|苗正卿
头图|AGI-Next前沿峰会现场
2026年1月10日下午,中关村国际创新中心,一场名为AGI-Next前沿峰会的闭门会议正在进行。
就在两天前,港交所迎来了“全球大模型第一股”。而此刻,这家公司的核心人物之一,清华大学教授、智谱创始人兼首席科学家唐杰,已经出现在北京的会场上。
这是智谱上市后的第三天。团队连夜从香港返回北京,几乎没有留出任何“庆祝窗口期”。
这场由清华大学基础模型北京市重点实验室发起的会议,聚集了当下中国AI学术与产业最核心的一批人物:唐杰、月之暗面创始人兼CEO杨植麟、阿里Qwen技术负责人林俊旸、腾讯首席AI科学家姚顺雨。
这场AGI学术会议没有“应用层”的喧闹,讨论全部指向一个更底层的问题:下一代通用人工智能,往哪走。
如果说在过去两年,Scaling和Token是AGI领域中最经常被提及的两个关键词,那么到今天,一些变量已经开始发生。
首先是 Scaling。在大模型飞速演进的两三年里,无论参数规模、算法路径如何变化,“继续Scaling”几乎是所有讨论的默认前提。但事实上,学术界对Scaling的质疑从未真正消失,只是在最近半年变得更加集中。
唐杰并没有否认继续扩大模型规模的价值,但他的表述已经明显从“能不能继续Scaling”,转向了“是否值得继续这样Scaling”。
他直言,今天的问题不再是算力有没有,而是“如果继续投入,效率已经变成瓶颈”。在他看来,当算力、数据和成本的投入不断放大,但智能提升的增量却持续变小,“Scaling也许是一个比较偷懒的方式”。
而当范式讨论真正落到技术细节上,Token被反复推到台前。
过去一年,作为大模型“六小龙”之一的月之暗面,几乎将全部精力投入到如何用更少的Token压低Loss上。在K2模型中,他们尝试以线性注意力等新架构,尽可能提升Token efficiency。背后的逻辑并不复杂——在预训练阶段,Token本身是一个常量,一旦Token被“吃完”,模型的智能上限也随之被锁死。
也正因为如此,杨植麟在报告中反复强调,Token efficiency已经不只是“训练效率”的问题,而是直接关系到模型还能走多远。尤其是在Agent与长上下文任务逐渐成为主流之后,用更少的Token完成更复杂的任务,正在成为一条绕不开的技术路径。
最后,当模型能力与成本约束同时摆在桌面上,应用方向的分化也变得不可避免。
姚顺雨判断,“toC和toB,正在走向两套完全不同的逻辑。”他指出,在消费端,“模型变得更强,并不一定能被大多数用户感知”,很多时候只是搜索体验的增强;
但在toB场景里,“智能越高,生产力越高,值钱的也越多”,而且这种差距会随着模型能力提升被不断放大。正因为如此,强模型和“稍微弱一点的模型”之间,在企业端的分化会越来越明显,这也在倒逼模型公司重新选择自己的主战场。
这场会议并没有给出明确答案,但一些共识已经逐渐成形。
在多位一线研究者的讨论中,三条趋势开始清晰浮现:Scaling之后的新一代范式正在被迫成为新命题;Token效率正在上升为国内大模型竞争的决定性因素;中美大模型正走在不同的演进路径。
这三条趋势,也是当下中国大模型产业无法回避的现实问题。
虎嗅注:以下三项趋势为笔者基于唐杰、杨植麟的发言及圆桌讨论内容所作的综合分析
趋势一:Scaling 之外,新的范式正在成为新命题
在 AGI-Next 前沿峰会上,关于 Scaling 的讨论,已经明显不再停留在“还要不要继续做大模型”这一层面,而是被不断推向一个更根本的问题:如果继续投入,是否还值得?
唐杰并没有回避 Scaling 仍然有效这一事实。他坦言,只要继续扩大算力、数据与参数规模,模型能力依然会提升。但他随即给出了一个更现实的判断:真正的瓶颈,已经不在于算力有没有,而在于效率是否还划算。
在这种语境下,唐杰将单纯依赖 Scaling 形容为“一种相对偷懒的方式”。类似的质疑并非只出现在国内。OpenAI 联合创始人 Ilya Sutskever 近年来也多次指出,当高质量数据逐渐耗尽、训练成本持续抬升,单纯通过堆叠规模所获得的智能增量正在迅速收窄,下一阶段的突破,无法再仅靠“把模型做得更大”来实现。
这并非对过去路径的否定,而是一种阶段性的反思。过去几年,大模型能力的跃迁,确实高度依赖参数规模与数据量的线性扩张;但当这一方法逐渐逼近边界,继续沿着同一方向前进,所能换取的,更多是成本的指数级增长,而非智能的同等跃迁。
正是在这样的背景下,唐杰开始反复强调一个关键词:效率。无论是模型架构、训练策略,还是强化学习与 Agent 环境的引入,核心目标都在于,用更少的投入,换取更高质量的智能增量。在他的表述中,Scaling 不再是目标本身,而只是手段之一;真正需要被重新定义的,是智能是如何增长的。
而这种对“下一代范式”的焦虑,其实在硅谷早就传来了。
在圆桌讨论中,姚顺雨将这一变化放进了更大的全球语境中。如果回看过去十年,OpenAI 实际上已经先后推动了两个重要范式:第一个是以预训练为核心的通用模型范式,第二个是以对齐、推理和强化学习为代表的能力增强范式。
姚顺雨表示,当下,越来越多的研究者开始将目光投向一个尚未被清晰定义的新范式,这个新范式的前提就是自主学习。
“在硅谷的大街小巷、咖啡馆里,大家都在谈自主学习。”姚顺雨形容道。但他随即指出,这个概念本身并不是一个统一的方法论,而更像是一组尚未被充分展开的问题集合。真正的瓶颈,并不在于有没有新的算法技巧,而在于:数据从哪里来,任务如何定义。
在他的观察中,自主学习其实已经以非常“温和”的方式发生着。ChatGPT 正在不断拟合人类的聊天风格与表达习惯;Claude Code 已经可以为自己写出相当比例的代码,在帮助自身系统变得更好。但这些变化之所以尚未显得“石破天惊”,并不是因为方向错误,而是受限于一个现实条件——缺乏足够强的预训练能力与通用底座。
至于信号何时会真正出现,姚顺雨给出了一个相对克制的判断:2026 年,可能会看到一些迹象,比如 Cursor 这类工具所展现出的变化。但他认为,更大的问题甚至不在技术本身,而在于想象力——如果真正意义上的自主学习出现,它会长成什么样?它的效果,应该如何被验证?
当被问及“下一个范式最有可能出现在哪家公司”时,姚顺雨给出的答案依然是 OpenAI。尽管他也同时指出,其商业化进程正在不可避免地影响OpenAI的创新基因。
这样的制衡关系,本身就是新范式在全球范围内都还迟迟未能清晰落地的重要原因之一。
林俊旸则从另一个角度补充道:用 AI 训 AI在技术上很快就可以实现,但真正困难的,是让系统持续理解用户本身。在他看来,如果自主学习只是停留在参数更新或模型自举层面,意义有限;真正的挑战,在于让模型在长期交互中形成稳定、可演进的认知结构。
这些讨论最终指向一个尚未被回答的问题:当 Scaling 的边际收益开始下降,自主学习仍然停留在早期信号阶段,“新的范式究竟会在哪里率先成形?”
或者说,中国的大模型公司,是否有机会参与、甚至引领这一轮范式转移?
趋势二:Token效率愈加成为国内大模型能力的决定性因素
如果说在 Scaling 逐渐逼近边界之后,行业开始重新寻找“下一步往哪走”的答案,那么在这场会议上,一个更现实、也更具约束力的变量,被反复摆到了台前:Token 效率。
“Token efficiency”几乎是在杨植麟演讲中最常被提及的概念。
他从第一性原理出发,重新拆解了大模型能力增长的路径。在他看来,从 2019 年至今,大模型始终遵循同一条基本逻辑:通过 Scaling Law,将更多算力、数据和参数转化为更低的 Loss、更高的智能水平。但这一逻辑的隐含前提是,Token 可以被无限消耗。
而现实并非如此。
当预训练 Token 被吃完,模型所能达到的智能上限,也就被提前锁死了。这意味着,问题不再只是“用多少 Token”,而是每一个 Token 能换来多少有效智能。在他的表述中,Token efficiency 已经不只是训练效率的问题,而是直接决定模型还能走多远的上限变量。
为了说明这一点,他引入了一个常被忽略的视角:在不同 Context 长度下,模型对 Token 的利用效率并不相同。在短上下文场景中,不同架构之间的差异并不明显;但当 Context 拉长到上千、上万甚至数十万 Token 时,Token 的位置损耗(position loss)开始显著拉开差距。也正是在这里,Token efficiency 开始直接决定模型在复杂推理与 Agent 任务中的潜力。
正因如此,过去一年,月之暗面几乎将所有核心工作都压在token效率上,即用更少的 Token,做到更低的 Loss。在 K2 模型中,他们尝试引入新的优化器(muon优化器)与架构设计(linear attention),通过提升 Token efficiency,使模型在“用一半数据达到相同效果”的意义上,获得等价于一次 Scaling 的收益。
杨植麟将这种效果直接类比为:“在Scaling的尺度下,用更少的参数,就能得到更好的Scaling效果”
但他随即强调,这里的 efficiency,并不仅仅是“快”或“省”,而是智能上限本身。在 Agent 场景中,模型的推理和强化学习,本质上是一个搜索过程;如果 Token 利用率不高,搜索空间就会迅速膨胀,模型需要枚举大量无意义的组合,才能逼近正确答案。相反,更高的 Token efficiency,意味着更强的先验,可以在有限 Token 内完成更复杂的任务。
这也是为什么,在他的判断中,Token efficiency 与长上下文能力并不是两个独立问题,而是需要被同时优化的乘积变量——前者决定单位 Token 的价值,后者决定模型能否承担真实世界中的长程任务。两者叠加,才是 Agent 能力真正放大的基础。
当 Scaling 不再是“无脑堆资源”的选择,Token 效率便从工程细节,上升为国内大模型竞争中的结构性约束。谁能在有限算力与数据条件下,更高效地“消耗 Token”,谁就更有可能在下一阶段的模型竞争中占据主动。
而这一变化,也正在悄然重塑国内大模型的技术路线选择。
趋势三:中美大模型正在走向不同的演进路径
在唐杰、姚顺雨、林俊旸等学者的讨论中,一个反复被提及的问题是:中美大模型之间的差距,究竟体现在哪里?
姚顺雨给出的判断,并不是单一维度的“能力高低”,而是指向两条正在逐渐分叉的演进路径。
在他看来,美国的大模型发展,正在明显向生产力与企业级场景集中,尤其是在 Coding 与 Agent 方向上,模型能力几乎直接重塑了工作方式本身。比如工程师不再写代码,而是通过自然语言与系统协作。在这种语境下,模型能力与个体生产力被强绑定,模型是否“足够强”,会直接影响工作结果本身。
也正是在这种背景下,美国市场对模型能力的价格容忍度明显更高。姚顺雨在讨论中提到,许多用户更愿意为成功率更高、不确定性更低的模型支付溢价。模型能力本身,在美国市场中更容易被直接视为一种“生产资料”。
相比之下,中国的大模型公司所面对的现实环境则明显不同。一方面,国内企业级市场对成本高度敏感,模型能力的边际提升,并不总能顺畅转化为价格溢价;另一方面,大量 toB 场景本身仍高度碎片化,对模型的需求更多集中在稳定性、可控性与交付效率上,而非单点的“最强智能”。
这使得模型在中国市场中,更像是一种被嵌入既有系统的基础能力,而非可以独立定价的生产力主体。
这种差异,并不仅体现在市场层面,也被进一步追溯到更底层的 Lab 文化上。
在姚顺雨的观察中,美国的大模型公司与研究机构,往往长期围绕“前沿问题”运转。研究团队被鼓励在较长周期内投入到高风险、高不确定性的方向中,即便短期内看不到明确的产品回报。这种文化,使得“把模型能力推到极限”本身,就具备持续获得资源投入的正当性。
而在中国,大模型研发环境则更强调效率与反馈周期。或者用他的原话来说,“中国(的Lab)还是更喜欢做安全的事情。”
研究团队往往需要在更短时间内回应明确的业务目标,模型能力的演进也更容易被拉回到“是否能落地、是否能规模化”的现实约束之中。这并不意味着技术投入不足,而是 Lab 与产业之间的边界更为紧密,研究方向更容易受到应用场景的牵引。
此外,姚顺雨还补充道,“中国对于刷榜或者数字更看重一些;而美国则并没有那么看重,他们在意的有两点,第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。”
这种 Lab 文化与市场结构的叠加效应,最终放大了中美在模型演进路径上的分化:在美国,更强的模型能力本身,就足以支撑持续投入与溢价定价;而在中国,模型能力往往需要先证明自身的可用性,才能获得下一步资源配置。这也在某种程度上解释了,为何中美大模型的差距,越来越少被简单理解为“谁领先谁落后”,而更像是两种现实条件下,被迫走出的不同路线。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4825356.html?f=wyxwapp
以下内容为友情赞助提供

全网新项目分享交流群
扫码进群,获取最新项目资讯
文档于: 2026-01-12 00:15 修改
标签:










评论列表
唐杰、杨植麟、林俊旸、姚顺雨:他们眼中的 AGI 三个转折点...
出品|虎嗅科技组作者|宋思杭编辑|苗正卿头图|AGI-Next前沿峰会现场2026年1月10日下午,中关村国际创新中心,一场名为AGI-Next前沿峰会的闭门会议正在进行。就在两天前,港交所迎来了“全球大...