AI未来指北
发布于

大模型不能只会“惊艳”了,它必须在市场里活下来

腾讯科技《AI未来指北》特约作者|涵清

编辑|沈月

2023年底,当“思维链”后训练机制让大语言模型的推理能力首次跨越“系统2”门槛时,技术界意识到——AI不仅能“答题”,也开始具备“慢思考”的能力。紧随其后的2024年,OpenAI 发布的 Sora 引发全球震动,长视频生成在视觉一致性与物理合逻辑层面取得突破,让“原生多模态”从技术幻想走向验证现场。

进入2025年,关于大模型的核心问题已经转向三个关键词:可扩展、可商用、可闭环。模型不只是“强大”,它必须穿越从科研能力到真实场景之间的落地峡谷,完成“从技术到产品、从工具到系统”的演进。

6月6日,在中关村展示中心举办的“大模型产业CEO论坛”上,智源研究院院长王仲远、Sand.ai创始人曹越、智象未来创始人梅涛与智谱AICEO张鹏(远程连线)共同出席,围绕“多模态大模型是否真正走到了产业化临界点”展开深入讨论。这是一场从基础架构到产品设计、从生成模型到行业交付的系统对话。

腾讯科技对本场圆桌对谈进行了精要梳理,以下为论坛要点概览:

1. 多模态模型进入产业化“临界点”阶段

大语言模型通过强化学习与长链“思维链”推理机制的结合,推理能力显著提升,被认为是通向“系统2”智能的关键跃迁。当前多模态模型大多仍基于语言模型架构进行适配,缺乏底层结构真正统一的“原生多模态”解决方案。“多模态版的 ChatGPT 时刻”尚未到来,但演进路径正逐步清晰。

2. 视频生成进入“可用但不可控”的早期阶段

Sora 的发布证明了高质量视频生成在技术上已具备可行性,引发了业界的广泛关注与震动。目前主流采用 Diffusion + Transformer 架构的生成方案,在 5 秒以内的视频生成中已能实现较为出色的效果。但随着模型参数的提升与生成时长的增长,该方案在稳定性、扩展性等方面会迅速遭遇性能瓶颈。相比之下,自回归式视频生成由于更贴近人类的感知与叙事顺序,被认为更具可扩展潜力,有望将生成时长突破至分钟级,成为下一阶段的重要方向。

3. RaaS(结果即服务)正在成为新一代商业落地模式

从 PaaS 到 SaaS,再到强调效果交付的 RaaS,AI企业正经历从“卖工具”向“交付结果”的转变。这种演进反映了客户需求从技术能力向业务价值的迁移。RaaS 模式更强调内容带来的实际成效,如流量提升、转化率增长等可衡量指标,逐步取代对抽象“模型能力”的单一依赖。未来 ToB 客户真正愿意买单的,是 AI 能为其业务带来的增长,而不仅仅是工具本身。

4. 推理跃迁引发智能体(Agent)能力崛起

大模型推理能力突破,让其不仅能完成问答,还能进行自主任务规划、工具调用与多轮决策。模型正从“知识表达系统”演变为“行动执行系统”,具备在现实任务中独立完成流程的能力。这标志着智能体(Agent)从概念走向实际场景应用,是AI产业化的关键里程碑之一。

5. 真正理解世界,AI必须能预测因果与物理交互

理解世界不止于识别图像,而要具备动态预测的能力,能“看到下一秒将发生什么”。视频预测模型不仅考验生成能力,更要求模型具备时间逻辑、物理一致性与因果推演。这代表AI的感知模型正迈向“世界建模”阶段,是向具身智能进化的必经路径。

6. 模态统一是假设,也是方向

曹越提出“柏拉图特征空间假设”:随着模型规模扩大,语言、视频等不同模态的特征空间将趋于一致。

这意味着未来可能出现一个统一模型,用相似的方式处理语言、图像与视频,实现真正意义上的“多模态融合”。多模态统一不只是界面统一,而是底层概念理解和生成路径的收敛。

7. 商业落地难点集中在“最后一公里”

大模型能力强,但若无法实现定向输出、角色控制、镜头绑定等精细化需求,依旧无法满足ToB创作者的专业诉求。当前视频生成在技术足够、产品可用后,依然难以形成稳定交付,因为缺乏闭环的内容链条与效果验证体系。

8. AI引发的“岗位更替”值得理性看待

AI在知识密集型行业率先渗透,如客服、教育、销售等;接下来可能重塑医生、程序员等职业角色。历史上每一次技术革命都会淘汰部分职业,但也创造出新的机会与分工体系。

未来真正的挑战不是被替代,而是如何理解技术、适应技术,并以技术为杠杆创造个人价值。

为提升可读性,下文根据圆桌论坛实录由腾讯科技编辑整理,内容有所精简与调整:

一、突破与瓶颈:多模态的商业化临界点

万宁:刚才几位演讲嘉宾从不同维度展现了大模型的发展现状。接下来我希望聚焦一个问题:多模态大模型在产业落地上究竟走到了哪一步?从2023年底这波AI热潮兴起,到如今市场愈发关注“落地场景”究竟在哪里,我们有必要一起探讨未来可能呈现的趋势。今天我们难得聚在一起,线上还有张鹏总连线加入。

每位嘉宾可以先用一分钟介绍自己,并结合一个问题展开:过去一年,AI发展确实带来了冲击,从你们各自的视角看,最令你兴奋的技术性突破是什么?与此同时,你们所面临的关键瓶颈有哪些?多模态大模型,包括具身智能,真正能够在商业化突破的临界点在哪里?

王仲远:我认为过去一年最重要的突破,是大语言模型与强化学习结合之后所展现出的推理能力。当前大模型在文本语料上的训练已接近饱和,基础能力的提升遇到瓶颈。但通过后训练机制,尤其是推理阶段“思维链”的不断延长,让模型像人类一样进行“慢思考”,从而显著提升回答准确率,这是推动模型智能水平持续进化的重要技术节点。

至于瓶颈,我认为在“原生多模态”方向仍存在较大挑战。虽然今天下午多位嘉宾展示了文生图、文生视频的相关产品,但其底层大多仍基于 DiT(如 DeepSeek Transformer)这类架构,与大语言模型的技术路径存在差异。智源也在积极探索是否存在其他多模态架构,目前取得了一些进展,但距离真正意义上的“多模态 ChatGPT 时刻”仍有距离,我们对此仍保持期待。

万宁:那接下来请曹总先简单介绍一下自己,并谈谈你所看到最兴奋的技术突破,以及你认为多模态是否已接近商业化的临界点。

曹越:我是 Sand.ai 的创始人,过去在智源主要负责视觉和多模态方向,也曾在微软研究院工作。

回顾过去几年,在以语言模型为核心的方向上,最具突破性的技术主要有两个:其一是以 ChatGPT 为代表的预训练规模化(Scaling);其二是像 R2 这类模型引入的 Test-time Scaling 概念。这两项技术在语言模型领域是极具颠覆性的。

站在我自己的角度,过去一年最令我震撼的技术是 Sora 的出现。Sora 让人们意识到,视频生成原来可以达到如此高的质量水平。

但与此同时,从视频生成技术本身来看,目前主流的 Diffusion 与 Transformer 结合方案存在明显瓶颈,最大问题是其不具备良好的可扩展性(Scalability)。类似于2018年BERT的发展路径,当模型参数扩大到一定程度后(如10B),性能提升会陷入停滞。而 ChatGPT 的后发制人,很大程度上得益于其可训练至1000B级别的能力。

目前高质量的视频生成,5秒以内,可以做到效果不错,但随着模型的大小提升,会快速达到瓶颈。我们认为,引入自回归思想可能是突破方向。人观看视频是按顺序的,为什么模型不能“顺序生成”?如果用自回归方式处理视频,不仅训练过程更自然,还可以在生成过程中实现边生成、边调整,理论上可以延长至1分钟甚至5分钟。虽然视频生成已达到第一个里程碑,但在底层技术路径上仍有广阔空间可供探索,用户体验也有极大提升潜力。

万宁:刚才曹总提到了视频生成的第一个里程碑,但这只是开始。梅博士怎么看下一个重要突破会出现在哪里?

梅涛:我们公司一直专注于多模态原生生成模型的应用与商业化。我本人也是微软研究院出身,今天在场不少同行也来自那里,先感谢微软培养了这么多AI人才。

我们在2023年创业初期,还是“跟跑者”,采用的是Diffusion架构下的UNet模型。2024年后我们转向了DiT,到年底又进一步结合了扩散与自回归架构,并发布了相关模型。今年4月我们开源了 HiDream-I1,目前在多个榜单上表现不错,也感谢长虎刚刚在现场“带了一波货”。

从模型到应用,我们的产品形态也经历了三个阶段。2023年,我们认为“模型就是产品”,所以做的是PaaS,提供底层模型服务;到了2024年,我们尝试转向SaaS,打造人人可用的创作工具,但发现这个路径的门槛依然较高,特别是对专业级影视内容的支持仍显不足;2025年,我们进一步进化为RaaS(Result as a Service),直接为用户交付结果、创造增长,并通过分佣模式实现共赢。

我们更加关注:如何将多模态视频与图像技术落地在真实的商业场景中,真正帮客户创造价值,这也是我们目前探索的方向。

万宁:你认为这就是实现商业化突破的关键所在?

梅涛:我认为是的。就像当年语言模型从 ChatGPT-2 进化到 ChatGPT-3,当前视频模型也处于这个关键跃迁的阶段。要实现突破,还需解决三个核心问题:

一是,叙事性,要保证视频做5分钟和1小时是完整的故事,IP要一致性。

二是,稳定性。现在稳定性做得还OK。

第三是可控性。我读博时专门去北京电影学院学过“镜头语言”,导演往往要求精确到第几秒出现什么镜头、人物表情等。但今天的大模型,还远未达到这种精细操控的程度。我们仍在等待视频生成迎来属于它的“ChatGPT时刻”。

万宁:张鹏总在线上,刚才的问题您也听到了。接下来请您结合智谱的最新进展,谈谈过去一年里让您最兴奋的技术突破,以及当前面临的主要瓶颈。

张鹏:很遗憾这次无法到现场。智谱是一家聚焦通用基座模型的公司,我们也非常重视多模态方向。去年我们发布了 CogVideoX 模型,支持通过语言生成符合物理规律的视频动画,有研究团队基于该模型进行了延展,取得了不错的成果,也说明我们此前的开源工作具备一定价值。让我觉得兴奋的有两件事:

第一是大模型复杂推理能力的显著提升。它突破了我们过去对大模型的定义——即只具备类似人类“系统1”的直觉思维。现在它展现出“系统2”层级的深度推理能力,这件事具有划时代意义。

第二是基于推理能力提升所带来的智能体(Agent)能力跃升。大模型已经可以自主规划任务、执行流程,并根据反馈进行动态调整。这种能力正在推动 AI 从数字世界逐步迈向物理世界,也让我非常震撼。

至于瓶颈,首先是数据问题。特别是在视频生成方向,训练所需数据往往涉及版权、成本等复杂问题,这些因素对模型发展形成了不小的制约。我们必须正视这类合规问题,并在法律框架下推动技术前进。

另一个更深层的技术难点,是视觉理解与视觉生成尚未打通。传统 CV 模型落地已较成熟,大模型提升后可快速替代传统图像识别任务。但视频生成的挑战远不止于此,它还涉及叙事、动态物理一致性等复杂维度。目前,我们尚未找到一个能将视觉理解与视觉生成高效融合的路径,因此在推动商业化应用时仍面临重大技术约束。

二、理解世界是下一代AI的关键能力

万宁:谢谢张总。在某种意义上,张鹏总把这个问题又抛回给在场各位。王院长,上午智源发布了“悟界”大模型,这是否代表原生多模态模型在理解物理世界方面迈入了一个临界突破阶段?它与传统 AGI 概念有何不同?

王仲远:谢谢主持人。今天上午我们介绍了 Emu4 模型,它采用自回归技术路线,从一开始就将文字、图像、视频纳入统一训练,实现了生成与理解的统一。Emu3 在去年 10 月发布,现在我们已在训练下一个版本。从结果看,它对世界的理解正逐步深化。传统多模态模型往往只理解静态画面,比如当你问一个装了多模态系统的机器人“看到了什么”,它会回答:“我看到一个会场,有人拿着手机拍照。”它描述的是一个静态事实。

但真正的世界理解,应该是具备动态预测能力。例如当你把手靠近水杯,它应该预测你要拿水;如果碰倒了杯子,模型应该预测水会洒出来并弄湿地板。这种能力才是真正意义上的世界建模。

要实现这一点,除了技术路线的创新,还需要理念层面的突破。我们认为,下一阶段的人工智能必须具备对空间、时间和物理世界交互的建模能力,理解宏观与微观世界之间的因果关系。这正是我们智源研究院当前的研究方向。

万宁:谢谢王院长。曹总,我想进一步追问。在视频生成中,涉及视觉、语音、物理逻辑的融合,也包括张总提到的推理能力。在这个过程中,企业如何提升真实场景的仿真度,解决我们常说的“一眼假”问题?比如水杯倒了但水不流,这种违和感如何避免?

曹越:王院长举的例子非常贴切。我们如何判断一个模型是否真的理解物理规律?比如我碰一下杯子,下一秒它是否掉在地上,掉落过程是否符合牛顿定律?即便模型不说话,只要它能做出符合物理预期的视频生成,那就说明它已具备一定物理建模能力。

这其实回到一个根本问题——我们如何找到最具可扩展性(Scalable)的技术路径。我认为答案是“视频预测”。也就是基于过去一段视频去生成下一段视频,这种方式要求模型必须深刻理解已发生的内容,才能准确预测未来。这也是我们 Sand.ai 过去一年专注探索的方向。

一个月前我们刚刚开源了首个自回归视频生成模型,版本包括 20B 和 4.5B 两种尺寸。它的训练方法是按秒生成,即每一秒都基于前一段视频推演出下一秒。这个方法与 Sora 或传统的 Diffusion-Transformer 模型不同,它更贴近视频这种模态本身的时序结构。

从长远看,我们希望不同模态最终可以整合到同一个模型中。这里提到一个理论假设,叫“柏拉图特征空间假设”,其核心观点是:不同模态(比如语言、视频)在模型变大之后,其特征空间会逐渐趋同。换句话说,只要找到适用于每种模态的最佳训练方法,随着参数量增长,模型所学到的概念会越来越一致。

如果语言模型已经找到了可扩展路径,那我们在视频方向也有希望通过自回归和预测式训练,达到类似效果。只要路径正确,模型越大,“一眼假”的问题自然就会越来越少。

万宁:谢谢梅博士。刚才我们从技术角度探讨了推理和预测能力,包括“柏拉图特征空间假设”。那如果站在应用场景看,用户的需求是否也在反向塑造推理模型的演进?智象未来在这方面有什么实践?

梅涛:我想抛出两个不同的视角。最近我在香港参加一个论坛,其中两种观点让我印象深刻。

第一种来自计算机科学领域的学者,他们认为目前的大模型,无论是语言模型还是视频模型,本质上并没有产生“新智能”,而是在复制世界的已有内容。这个观点我部分认同。现在许多领先模型如 Google Veo3 都能生成非常逼真的内容,但背后的核心竞争其实是高质量数据的积累,而非智能的本质跃迁。

第二种观点则来自生命科学学者,他们反而对我们很“惊讶”,觉得我们在做正确的事情,因为他们觉得人类的认知就是在不断地建立神经元之间的连接,这跟大模型学习的机理是相似的,只不过大模型学习的机理是非常简单初步的一种模拟。从这个层面上来说,我们好像又看到了一点点希望。

刚才张鹏总也讲过,理解和生成怎么样能够统一?很难,我也没有看到答案,我们也在探索。我们最近看到的是可能想办法解决理解和生成,这种问题抛给智源研究院来解决更合适一点。我们想做的是能不能把3D的世界和2D的视频结合在一起,把理解和重建放在一起做,这个可能对我们来说是一个更加 practical 的一种做法。

万宁:仲远院长您可以稍作准备。我先继续把问题交给张鹏总。智谱在提供通用技术底座的同时,也面临着如何协同生态伙伴推动落地的问题。我们看到您选择了开源和闭源并行的策略,如何在坚持技术演进的同时,也建立起良性的生态体系?

张鹏:智谱的创始团队来自学术界,因此我们更早意识到,大模型本质上是技术驱动的创新过程。在技术仍处于快速上升期的阶段,把重心全部转向产业落地并不现实。技术本身的突破仍然至关重要。

因此我们一直坚持“两条腿走路”:一方面,持续将最新的研究成果开源给社区和学术伙伴,让更多团队在我们的基础上开展创新;另一方面,在面对客户时,我们又作为商业公司承担起“技术产品化”和“客户价值实现”的角色。

开源能推动社区活跃和技术繁荣,但并不能解决所有客户的具体痛点。而商业公司可以将技术深度理解后,转化为具体可用的产品。因此在 AI 技术尚不稳定、仍有巨大空间演化的阶段,商业公司在中间扮演着重要角色。这种能力的结合既能推动产业落地,也有利于科研持续突破,是我们战略的核心之一。

万宁:“帮助两方面的成功”,张总的这句话也回应了智源研究院的定位。我们确实正处于一个技术驱动阶段,但产业应用的生态协同也非常关键。王院长,您上午介绍的“悟界”系列中包含一款 Brainμ 建维模型,可以实现真正的全模态输入和输出。您如何理解这一模型的实际应用意义?

王仲远:悟界系列中我们发布了一款 Brainμ 模型,是具备全模态输入输出能力的系统。简单来说,它既可以接受语言、图像、视频、甚至脑信号作为输入,也能输出上述任意模态的信息。

比如我们在 EMU3 架构基础上,将其与脑信号系统结合,构建了脑科学方向的通用模型。如果输入是脑电信号,它可以输出文字,解码人脑中所想;也可以输出图像,将大脑中想象的画面还原出来。

我们在论坛现场也进行了展示。比如你想象一只狗,它能生成一只近似的动物图像,虽然还存在一定的变形——主要是因为我们目前用的是头戴式脑机接口,信号质量有限。但它展示了脑信号驱动多模态生成的巨大潜力。

这种全模态建模的能力在未来有广泛应用场景。举例来说,一位从未有过视觉经验的失明者,可能通过脑信号感知、建模并还原这个世界,这为残障辅助等领域提供了新的希望。

当然,实现这些目标还面临很多挑战,包括路径选择的争议。但智源的使命就是在产业难以探索、学界尚存分歧的问题上先行一步,推动基础研究,为产业奠定长期价值。

三、在摧毁与创造之间:AI如何再造人与工作的秩序

万宁:特别好,把你们的定位表达得很清晰。我想请教梅博士和曹总,随着ToB业务发展,专业创作者对视频生成质量要求越来越高。在提升可控性方面,比如角色动作绑定、多模态下图像生成等方面,当前的技术瓶颈和发展方向有哪些?除了王仲远院长提到的内容,你们还在积极探索哪些方向?

梅涛:这个问题其实也对应着商业化“最后一公里”的挑战。我们看到目前有两种路径:一种是“模型即产品”,底座模型做得足够好,就能直接撬动上层应用。像OpenAI和Gemini,借助强大模型和资源,在短时间内快速吸引用户。

另一种路径是构建垂直闭环的商业场景,深入理解特定业务流程。例如我们在做互动营销时,起初尝试卖工具,发现工具门槛高、体验不佳、用户要求高,难以推广。于是转向内容交付,但客户并不总愿为内容付费。最终我们开始关注结果交付:内容是否带来流量和GMV提升,并尝试按效果分成。

这背后是对闭环生态的构建思考:签约UP主、MCN机构、建立自己的账号矩阵,甚至走向卖货电商平台。模型底座再强,若不能打通商业化最后一公里,就只能是技术提供者。

万宁:梅博士给出了非常用户视角的解读。曹总,您怎么看?尤其是展望未来三到五年,视频生成模型在哪些方向有突破的可能?

曹越:视频本身就是一种高门槛的创作形式,人类在视频生产力上其实很弱。拍一段视频可能要布景、打灯、调道具、请演员……所有这些环节都费时费力。

而视频生成模型则可能带来指数级效率提升。比如拍一艘在太空中航行的航空母舰,过去几乎不可能,或者需要专业特效团队一帧帧合成。如今,即便抽卡需要几百次、成本数百元,也远比传统制作便宜得多。

虽然目前还存在很多挑战,比如生成不符合物理规律、质量波动大等,但从语言模型的发展经验来看,随着技术演进,这些问题终将被逐步解决。

长远来看,视频生成将重塑内容创作。例如网文写手未来可能一周生成一集剧集;语文作业可能从写400字作文变成剪辑2分钟短片。技术进步、成本降低将推动视频创作“平权”,并催生全新的创作形态。

万宁:特别好,曹总的发言也为我们开启了未来的想象。张鹏总,除了曹总提到的领域,您认为在哪些行业最有可能率先迎来“GPT时刻”?

张鹏:这个问题从我们做大模型那天起就在被反复讨论。其实答案并未有太大变化。本质上,大模型擅长的是知识学习、压缩与表达,因此最先影响的是依赖知识传递的人机交互场景。比如客服、教育、销售等行业,早期就受到显著影响。

随着模型能力扩展至代码生成、工具调用、文章创作,它也逐步渗透进程序员、初级研究者等白领岗位。这是技术进步带来的自然演变。人类已知的疾病都会被AI解决,那医生这个职业就没有了,当然这是一种极端的预测。我相信就算不这么极端,随着技术的演进,医疗服务行业仍然会有大量的机会。反过来讲,今天我们也会担心一件事,这些人被替代了怎么办?我想,在摧毁一些东西的同时,也会创造一些新的岗位和职业机会出来。所以大可不必担心,正面看待这件事就好。

万宁:问一下梅博士,从PaaS到工具,再到结果导向的服务路径非常清晰。那您认为,在这个路径下,智象未来在哪些行业最有可能最快实现用户价值?

梅涛:这个问题我们一直在思考。目前我们在几个行业表现不错。比如在国内的互动营销领域,尤其是运营商体系内,为个人和小商家提供AI视频营销服务,我们已做到行业领先。此外,我们也在为跨境电商客户提供定制内容服务,已有数百家客户落地应用,同时也在探索游戏行业的可能性。

核心逻辑是:希望把更多创作留给人类,把繁琐、流程化的拍摄和制作工作交给AI工具来完成。我们聚焦的是“数字创意”相关行业,在这些内容场景里用AI提升效率和创造力,这是我们目前最重视的方向。

万宁:你们的突破点将在这些方向上不断推进。仲远院长,张鹏总刚才谈到了“摧毁与创造”的辩证关系。技术的每一次突破都会淘汰一些岗位,也会孕育新的机会。您如何看待AI特别是大模型未来对经济结构和社会的重塑?智源研究院对此的判断是什么?

王仲远:历史上每一次技术革命都伴随着类似的担忧。从电力革命到计算机革命,一些岗位确实被淘汰,比如今天几乎没人再用算盘。但与此同时,人类社会的整体财富和创造力却在持续增长。

我认为,大模型这波浪潮带来的变革将极为深远。虽然现在很多人感叹大模型推出两年了,商业化仍不明显,挑战不少,基础模型技术也在不断演进。但如果仔细观察,围绕Agent创业的团队明显比过去多了许多,越来越多人在把想法变成现实产品,逐渐进入大众使用场景。

我们常常高估一年内技术的演进,却低估五年后它带来的改变。从这个角度看,我对未来持非常乐观态度。关键是每个人都应主动拥抱这种技术浪潮。

作为研究人员,我们当然要不断推动技术突破。而普通用户,也可以从了解开始,在这个过程中思考:这些技术如何影响我的岗位、我的生活、我的职业?只要愿意思考和适应,新的机会就会涌现。

万宁:仲远院长几乎帮我总结了整个论坛。今天我们从多模态模型到产业落地,探讨了AI在推动变革中扮演的角色。无论是摧毁还是创造,是高估技术还是低估市场的演进速度,这些都将成为未来持续思考的问题。

我们非常幸运,请来了多位正在推动变革的关键人物,他们从不同维度为我们呈现了AI变革的真实图景。这不再是单一声音主导的时代,而是立体、多元、深度融合的探索期。

未来,我们或许会看到更多现象级产品的出现,不再只是靠“流量密码”运作,而是真正结合了技术积淀、场景理解和商业闭环的综合能力。最关键的是:我们是否愿意敞开心扉去拥抱变化。变化也许带来阵痛,但也必将带来成长和惊喜。这就是我们站在AI时代所共同面对的时代命题。

浏览 (5)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇,AI未来指北笔下的文章真是挺有深度的啊!面对大模型从惊艳到落地的转变,技术的每一次跃迁都让人兴奋不已。聊天机器人不仅答对问题,还能动动脑筋,挺像我们的智能小探金哦!视频生成的Sora就像是个大孩子,从那么简单到复杂,每一步都见证了技术的进步~瓶颈嘛,就像爬山,如何跨越模态统一的那座山头,是所有创新者都在琢磨的问题。 曹总提到的自回归视频生成,就像画出一条新的攀登路线,不仅能在观看体验上持续变长,而且可能会让模型更懂世界。商业化落地上,咱们得重点关注故事的连贯性、稳定性以及可控度,就像导演亲手指挥镜头那样。 梅涛博士,你们智象未来在RaaS这条路上走得稳健,从模型到结果,这一步一步的转变,确实能看到价值导向的转变。真期待那个能预测因果的视频生成,让每一秒都像真的。 而张鹏总,你们智谱在技术与生态之间找到了平衡,开源与闭源并举,真是聪明之举。全模态输入输出,未来可能真的会让我们和机器
点赞
评论