总体概述
全员共识与核心分歧
大家的共同观点(共识)
范式跃迁共识
每个人都确认了从Chat到Action/Agent的转变。无论是唐杰的"Thinking+Coding",杨植麟的"Long Context",还是林俊旸的"Software Engineer",大家都不再满足于对话,而是追求让AI操作工具、完成复杂任务。
多模态是刚需
无论是为了让Agent看懂电脑屏幕(林俊旸),还是为了模拟人脑的"感统"(唐杰、张钹),大家都认为视觉/听觉等多模态能力是AI接入现实世界的必经之路。
强化学习(RL)的重要性
尽管侧重点不同(RLVR vs 训练效率),大家一致认为RL是提升模型推理能力、突破Scaling Data瓶颈的关键手段。
对中国AI的务实自信
大家都承认中美在底层创新和算力上的差距,但对于中国在工程化、开源生态、以及丰富应用场景(To C)下的追赶能力保持高度一致的乐观。
主要的不同看法(分歧与侧重)
技术路径的侧重
杨植麟更激进地追求底层数学架构的改变(Linear Attention),试图从根源解决效率问题。
唐杰更倾向于认知科学路线(系统1+系统2,拟人化),试图从仿生角度解决智能问题。
林俊旸则侧重于工程与软硬结合(Algorithm-Infra Co-design),在现有架构下挖掘极致性能。
对商业落地的判断
姚顺雨明确区分了To B与To C的逻辑割裂,认为To B才需要极致智能。
林俊旸则认为模型即产品,通过开源和全能Agent覆盖长尾需求,不刻意区分B/C,更看重解决实际问题。
对"智能"本质的理解
产业界嘉宾(唐、杨、林)更多关注如何提升智能的表现(分数、通过率)。
学术界嘉宾(张钹、杨强)则深刻质疑当前智能的本质缺陷(语义定义、不完备性),认为不解决理论问题,Scaling再大也有天花板。
专家详细观点
点击头像快速跳转至对应专家
唐杰认为2025年初DeepSeek的出现是一个转折点,意味着单纯的对话模型(Chat)在技术范式上已经触顶或解决。接下来的竞争不再是做更好的Chatbot,而是让AI真正去"做事情"。这促使智谱团队转向Thinking(思考)+ Agentic(智能体)+ Coding(编程)三位一体的路线。
"也许在DeepSeek这种范式下,把这种Chat时代基本上差不多算是解决了...这个范式可能基本上到这快到头了...我们当时的想法也许新的范式是让每个人能够用AI做一件事情,这可能是下一个范式,原来是Chat,现在是真的做事了。"
为了提高模型的推理和泛化能力,必须依赖强化学习。但人类反馈(RLHF)噪音太大,未来的爆发点在于RLVR(可验证奖励)。现在的挑战是从数学/代码这种容易验证的场景,扩展到网页设计、Agent操作等"半自动或不可验证"的真实场景。智谱通过AutoGLM在设备操作(Device Use)上的尝试,发现必须结合API和GUI,并通过大量环境数据进行全异步强化学习。
"今年是RLVR(可验证奖励强化学习)爆发年...如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长...难题的难题...可验证的场景也许逐渐地不够用了。"
唐杰提出AI架构应模仿人脑。系统一(直觉/快思考)对应Transformer的大规模知识记忆;系统二(逻辑/慢思考)对应复杂推理和思维链。更重要的是,未来AI必须具备"多模态感统能力",像人脑一样将视觉、听觉、触觉信息统一处理,这是AI进入物理世界的前提。同时,他认为AI未来需要建立像人类文明一样的"外部记忆系统"和自我认知。
"人类认知是双系统,系统一和系统二...对于系统一来讲,我们在不断地Scaling...系统二是在Scaling推理...后来我想了想原生多模态模型和人的'感统'很相似...对于模型来讲,下一个多模态的感统能力怎么来做?"
尽管中国开源模型表现出色,但唐杰提醒差距可能实际上在拉大(尤其是在闭源模型和基础设施上)。对于Scaling Law,他认为单纯加数据和参数是"偷懒"的办法,真正的突破应在于"知识压缩效率"和让机器自主定义奖励函数的"新Scaling范式"。
"其实可能真正的答案是我们差距也许还在拉大...Scaling是一个很好的办法,但Scaling可能是最轻松的办法,是我们人类偷懒的一个办法...我们能不能找到更好的知识压缩的方法,把知识压缩到更小的空间里面。"
为什么Transformer取代了LSTM?杨植麟认为关键不在短序列,而是在长序列下Transformer的Loss更低。Agent任务通常涉及数百步操作,必须依赖极长的上下文。因此,优化Long Context是做强Agent的必经之路。
"Transformer优于LSTM的关键不在短序列,而在长上下文场景下Loss显著更低——这正是Agent时代的核心需求。"(注:此处为总结转述,基于演讲逻辑)
传统的Transformer计算复杂度是O(N²),随着上下文变长,显存和计算量爆炸。杨植麟团队提出了Kimi Linear(Delta Attention)架构,将复杂度降为线性,推理速度提升6-10倍。这是为了让模型在处理超长任务时具备可行性和效率。
"下一代架构Kimi Linear采用Delta Attention线性注意力机制,首次在长程任务上超越全注意力,同时速度提升6-10倍。"
杨植麟提出了一个有趣的观点,即智能不像电力那样是标准品。不同的模型生成的Token质量、逻辑和"味道"是不同的。因此,不仅要追求Scaling,还要追求Token的质量和模型的"品位"。
"接下来的模型需要更多Taste(品位),因为智能不像电力可等价交换,每个模型产生的Token本质上是不同的。"
以前的Coding模型关注解一道算法题,现在的目标是维护整个项目。这需要模型具备"Agent Scaffolds(脚手架)",能够像人一样打开文件夹、查看文件、与环境多轮交互。他认为这才是Coding模型产生真实生产力的关键。
"今天我们做什么事情呢?Software Engineer...不仅是算法的挑战,在里面干完活就把它消除掉。真真实实的存在...我们想做今天的Coding的模型可以有生产力,很多代码可以写出来。"
他指出以往做多模态(VL)模型往往会导致语言能力下降(变笨)。但在Qwen3中,他们实现了视觉模型与纯文本模型智力持平。视觉能力对于操作电脑、手机(看懂GUI)至关重要,是迈向VLA(视觉-语言-动作)机器人的基础。
"我们没有期待它真的能够大幅度提高智商,但是至少不要变笨,因为很多时候做VL模型是变笨的...我们毫不犹豫的去做,这是巨大的差异,Visual Understanding就去做可以了...VL模型能不能当LLM来用。"
通义千问坚持开源全尺寸模型,这带来了意想不到的收益。开发者会反馈很多大厂意想不到的Bug(如图像编辑时图层偏移、非洲功能机用户的需求),这些反馈极大地推动了模型的实际可用性。
"如果不是开源社区告诉我们,这辈子都想不到有这个问题...比如两张图重叠在一起的时候你会发现糊了...我觉得是开发者给我们很好的用例,原来可以做出真的可以帮助到他们东西。"
他直言美国算力资源比中国多1-2个数量级,美国可能在"浪费卡"。中国团队因为"穷",所以更有动力去做算法与基础设施(Infra)的联合优化,这可能成为中国创新的突破口。
"美国的Compute可能整体比我们大1-2个数量级...我们今天相对来说捉襟见肘...是不是穷则思变,创新的机会会不会发生在这里?...算法和Infra今天联合的事情是真真实实存在的。"
他指出To B市场(生产力)对模型智能极度敏感,愿意为最强的模型支付高溢价(如Coding场景);而To C市场(生活助手)对智能提升不敏感,更依赖"额外的Context"(用户画像、历史数据)。这解释了为什么美国To B火热,而中国To C更多样。
"对于To B来说这个趋势似乎是相反的,模型在变得越来越强...美国的人愿意花溢价用最好的模型...对于To C来说,大部分人大部分时候不需要用到这么强的智能...需要的是额外的Context。"
针对大家讨论的"下一代范式",他认为自主学习不需要石破天惊的模型更新,而是已经在发生。例如Claude编写自己的代码库、ChatGPT适应用户聊天风格。这是一种渐进式的自我进化。
"这个事情其实已经在发生了...今天Claude已经写了Claude这个项目95%的代码,它在帮助它自己变得更好...我们今天看Claude这个系统本质上有两部分...大家意识不到,这些自主学习的例子可能还局限在每一个特定的场景下。"
他认为中国在"一旦路径明确后的复现与优化"上能力极强。虽然创新基因和冒险精神不如硅谷,但利用工程优势、数据优势和应用场景,中国可以在很多局部(如移动端应用、长尾场景)做得更好。
"任何一个事情一旦被证明能做出来,在中国就能够很快的复现,在很多局部做得更好...我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情...我们某种程度上已经比美国做得更好。"
工业界在狂奔,学术界不应只是复现。他引用哥德尔不完备定理,认为大模型必然存在幻觉。学术界应量化研究"投入多少资源能换来多少幻觉降低",寻找那个"无免费午餐"的平衡点。
"学术界跟上来要解决什么问题呢?...智能上界在哪里...哥德尔不完备定理,大概意思是说一个大模型不能自证清白,必定有一些幻觉不可能消灭掉...这孕育着一个巨大的突破。"
针对隐私和本地资源限制,他提出联邦学习式的架构。通用大模型(如ChatGPT)与垂直领域/本地模型(如银行、医疗数据训练的模型)进行协作,既利用大模型的泛化能力,又保护隐私。
"我一直在做联邦学习的...这种通用型大模型和本地特殊性的小模型或者领域专家的模型如何协作,我觉得这种协作变得越来越可能。"
他将Agent分为四级:1.人定目标+人做规划;2.人定目标+AI做规划;3.AI定目标+人做规划;4.AI定目标+AI做规划。目前的Agent多处于第二阶段,未来大模型应能观察人类工作,自主定义目标。
"Agent应该是由大模型内生的一个Native的系统...最后目标也可以是大模型来定义,规划也可以由大模型定义。"
他指出目前大模型理解语义的方式是"看词语在什么上下文中一起出现(共现)"。这是一种近似模型,不是人类的真实语义模型。因此,它必然导致:1.指称缺失(不知现实物体);2.真值与因果缺失(不懂逻辑真假);3.语用缺失;4.多义缺失;5.闭环行为缺失。
"我们现在所用的定义都是不完备的,都是近似的...所以现在很多人提出来,很多人发现机器人出现很多怪现象,都归结于语义有问题...这五个缺失必然会影响到你用语言模型去做应用。"
他批评马斯克等人对AGI的定义过于模糊。他提出了五个具体的AGI关键能力指标:时空一致的多模态理解、可控的在线学习、可验证的推理、可校准的反思、跨任务强泛化。只有满足这些,才算迈向AGI。
"马斯克说,我们人类能够干70%以上的任务,机器都会干...这样的定义完全不可执行、不可检验...所以我认为必须要定义一个可执行、可检验的定义。"
针对AI觉醒的担忧,他认为目前无需过分担心机器意识,应关注功能主体和责任主体。治理的重点在于研究者和使用者。企业家不能只把AI当工具,要像提供水和电一样提供普惠技术,并承担伦理责任。
"我认为最主要的治理不是治理机器,而是治理人类...人工智能给企业家做了重新的定义...把人工智能作为像水和电那样通用的技术交给人类。"