AI拼研究了|笔记
伊利亚在去年底说,要回归研究;2026进入新年,顶尖的和新型的AI实验室,都已经开始只争朝夕了。
中美都在发力AI下一个范式
a16z的创始人安德森,最近融了一笔150亿美元的基金,他展望2026年时说,看好伊利亚(Ilya Sutskever),Mira (Murady),李飞飞、Cursor团队等,这一批业内顶尖的科学家和研究团队,新型AI研究将有可能颠覆硅谷。当然,他也看好中国的团队,如月之暗面Kimi,已经达到GPT-5的水平。
月之暗面创始人杨植麟最近在一个内部行业论坛中说,“所有的技术突破都伴随着风险,但我们不能因恐惧而停滞不前。因此,我们希望在接下来的十年、二十年里,继续把K4、K5到K100做得更好。”
杨植麟谈到了在中国做研究非常稀缺的一种东西taste (品味),月之暗面要坚持taste,它手握百亿元现金,也给了它这样做的底气。这类似于DeepSeek,坚持纯粹的AGI追求,决定了可以长期保持taste。保持taste,需要不停地拓展模型的边界。Kimi明确提出了两个目标,一个是token效率,一个是长文本(long context)。
这是清华大学基础模型北京市重点实验室、智谱AI发起的AGI-Next发起的前沿峰会。而中国的“大模型第一股”智谱上市之后,其创始人兼首席科学家唐杰,也要求大家马上回归研究。
TML(Thinking Machine Lab)甚至很鲜明地提出,研究即产品 (Researcher is Product)。这家公司在OpenAI前首席技术官Mira带领下,聚集包括OpenAI联合创始人舒曼和翁荔等在内的一批顶尖研究员。这其实也支持了模型即产品这一观点。
阿里千问技术负责人林俊旸认为,现在的研究员,都愿意做面向真实世界的研究。他特别提出了目前AI所处的工作环境,就是在电脑里,而几乎无法和电脑之外的工作环境交互。“如果AI能和真实物理世界交互,那才是我想象中Agent能做长时间工作的情景,而不是说仅仅是在电脑当中。”
即使在一两年内,AI能实现在电脑上干几天的活,但真正广阔的,是电脑屏幕之外真实的物理世界,所以,具身智能是更有价值的追求。
但林俊旸也吐槽,即使在大厂中,也面临研究算力不够的问题。
“如果从概率上来说,我可能想说一下我感受到的中国和美国的差异,比如说美国的Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是OpenAI还是其他,他们大量的Compute投入到的是下一代的Research当中去。”
“我们今天相对来说,捉襟见肘,光交付可能就已经占据了我们绝大部分的Compute,这会是一个比较大的差异,这可能是历史以来就有的问题。”
不过,林俊旸也圆回了话锋,如果是“GPU穷人”的话,可能会更有动力去做一些软硬件协同、高性价比的创新,他谈到两三年前,阿里内部芯片设计团队曾与大模型团队交流,但没有协同起来,感到有些遗憾。
相比大厂,大学等研究机构,今年可以发挥更大的作用。唐杰谈到,目前高校等学术界,科学家手中已经不再像几年前那样缺卡,与业界相比那么寒碜了,现在手里都有足够多的卡,可能进行大模型新范式的探索和研究。
中国做To B难,创业者想打海外
大家也提到了Mamus,这家所谓“套壳”的产品公司,却得到了几十亿美元的估值。中国做To B确实很难,初创公司还要想去打海外市场。
刚从美国OpenAI回到中国,加入腾讯担任首席科学家的姚顺雨认为,今天我们看到很多做生产力或者做To B的模型或者应用,还是会诞生在美国,因为支付意愿更强,文化更好。
今天在国内做这个事情很难,所以大家都会选择出海或者国际化的事情,这两个是比较大的客观上的因素。“很多做Coding Agent的公司其实也是要去打海外市场。”
中美之间的差距
唐杰向中国开发者泼了一点冷水:“美国和中国大模型之间的差距,说不定并没有缩小,因为美国还有大量闭源模型没有开源。” 这与DeepSeek-V3.2的论文结论基本一致,开源模型与闭源模型之间的性能差距并没有收敛,反而呈现出扩大的趋势。DeepSeek警告中国开源模型:“在越来越复杂的任务中,专有闭源系统展现出了显著更强的能力优势,并在处理高复杂、多步骤、交互式问题时体现出的领先幅度在扩大。”
DeepSeek-3.2年终压轴,追上OpenAI,遇上Gemini,算力正在影响后劲
2025/12/2, 阅读全文>
但中国跟着美国开创的范式,哪怕追赶得再快,也是跟随。它极大地降低了探索的成本,同时能在工程上做性价比的创新。
唐杰认为,制定新标准非常重要。未尽研究从2025年到2026年的AI展望中,都提到了标准的问题。1,数据污染问题,2,数据饱和的问题,3,自说自话问题,如围绕自己的数据集和范式设定标准,4,高分低能问题:标准与实际工作脱节。
中国能否开创自己的AI范式,一个最重要的标志,就是中国的AGI探索者,大厂、新上市企业、独角兽等,制定出一些中国的测试标准。
唐杰观察到,如今疯狂的RL、Scaling,收益已经大不如从前。因此,他定义了一个衡量智力水平的新范式,智能效率(Intelligence Efficiency),用于衡量模型投入和智力收益的ROI。
效率和性价比,这可能是自DeepSeek以来,中国的开源模型最得到国际公认的一点,也是把模型推向应用的最重要的标准。
姚顺雨则比较乐观,以电动车为例,认为三五年内全球最领先的AI公司会出现在中国,前提是中国要有光刻机。
“概率还挺高的,我还是挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。”
“我觉得可能有几个比较关键的点,一个可能是中国的光刻机到底能不能突破,如果最终算力变成了Bottleneck(瓶颈),我们能不能解决算力问题,目前看起来,我们有很好的电力优势,有很好的基础设施的优势。”
To B与To C,通用与垂直,模型与应用
To B和To C,通用和垂直,模型和应用,一直是行业内争论不休的问题。姚顺雨认为,2C的场景下,垂直整合是成立的。但2B场景下,模型公司专注把模型做强,应用公司则追求用最强的模型来提升生产力。这样看来,2B与2C正在分化。
Coding是第一个被验证为收入百亿美元级别、估值数千亿美元级别的应用领域。它消耗的token数量是巨大的,但它能真正提升了编程的效率,也卖得出高价,付得起这个算力成本。
林俊旸与美国API厂商的交流中发现,Anthropic总是在服务客户中发现新的需求,特别是在一些高价值场景中的需求,除了编程,还有金融等。 这样的领域 ,可能还有医疗、法律、咨询等。
姚顺雨认为,模型能力越强,解决问题的能力越强,也就越能在服务客户的过程中发现更多可以解决的问题,这是Anthropic道路给大家的启示。
显然,Anthropic道路,相比OpenAI,正在吸引越来越多中国的大模型和应用公司,如智谱等。
姚顺雨指出:OpenAI做To C的问题我们都知道,To C的DAU和模型智能,很多时候是不相关的,甚至有相反的关系。
一个明显的例子是,GPT-5推出后,许多用户要求回到GPT-4o。
--
参考:
https://mp.weixin.qq.com/s/IToXOrPJ-fi3B3sJQuxLpQ
https://mp.weixin.qq.com/s/8sfZIkC8wt22OiJFnvnF3w
https://mp.weixin.qq.com/s/6Jyh2RCQuvD38CCGHVix-Q