扎克伯格最新专访:DeepSeek非常棒,但Llama具备多模态优势
划重点
开源AI快速崛起,Llama不再独大,多个优秀模型涌现,开源模型的表现逐渐赶超闭源模型。
不同AI实验室专注不同的领域,Anthropic注重编码,OpenAI专注推理,Meta致力于自然互动与多模态能力。
AI将在未来12至18个月内自动化编写大部分研究代码,但基础设施(如计算与能源)仍是发展瓶颈。
DeepSeek的底层优化确实做得很好,最终的文本模型表现也相当不错,但缺乏多模态能力。
AI应用根据不同需求采用多样化商业模式:免费广告支持、订阅服务或高阶付费服务。
AI不会减少工作机会,反而会创造更多需求,如提升客服等领域的效率。
Meta首席执行官马克·扎克伯格近日接受了知名科技播客主持人德瓦克什·帕特尔的专访。在这次访谈中,扎克伯格探讨了多个关键话题,包括Llama 4的改进、通用人工智能(AGI)的商业化之路、DeepSeek的优缺点、开源的优势以及其在AI发展中的意义等。
以下为扎克伯格最新专访精华版:
01 Llama 4不追榜单重用户体验
问:Llama 4 相较 Llama 3 有哪些进展?
扎克伯格:我们刚刚发布了 Llama 4 系列的首批模型。相比 Llama 3,这一代模型在多个方面都取得了显著进展。Meta AI 当前月活用户已接近 10 亿,增长速度非常快。我认为,今年将是AI发展的关键节点,尤其是在我们着手构建所谓的“个性化闭环”之后。这一闭环整合了用户在信息流、个人资料、社交关系,以及与 AI 交互过程中的数据,我们认为这将是下一阶段最具潜力的创新方向,因此正加大投入。
在模型研发方面,我们发布了 Llama 4 系列中的两个模型:Scout 和 Maverick,它们属于中小型模型,具备出色的性能和极低的响应延迟,非常适合大规模实际应用。这些模型是原生多模态设计,可在单台服务器上运行,性价比极高。目前,Llama 3 中最受欢迎的是 80 亿参数的模型,我们也会在 Llama 4 中推出同等规模的版本,内部代号为 “Little Llama”,预计将在未来几个月发布。
此外,我们还在开发一个规模空前的大模型,代号 Behemoth,其参数量超过 2 万亿。这是我们首次尝试如此庞大的模型,我们也在探索如何将其变得真正实用。由于体积过大,它并不适合直接应用于消费级场景,可能会通过模型蒸馏等方式转化为更小、更易部署的版本。
在2024年,Llama 3 首发后,我们对其进行了持续优化迭代,例如 Llama 3.1 推出了 4050 亿参数模型,3.2 引入了多模态能力。今年我们也有类似的路线图,继续拓展模型的能力边界。
问:开源模型是否在被闭源模型拉开差距?
扎克伯格:对于开源模型来说,我认为今年将是关键年份。在2024年,Llama 几乎是唯一具创新性的开源大模型。而现在,开源模型生态愈发活跃,涌现出众多强劲竞争者。整体来看,开源成为主流的趋势已经在逐步实现。
目前市场上存在一种“推理模型”,专注于提升数学和编程任务中的复杂推理能力,尽管这通常会以牺牲响应速度为代价。我们也在研发一款专注推理能力的 Llama 4 版本,将在未来某个时间发布。
但对于我们关注的多数产品应用场景来说,延迟和成本更为关键。用户不愿等待半分钟来获取答案,理想体验是在 0.5 秒内给出一个“足够好”的响应。未来,我们希望在核心语言模型中融合推理能力,这也是谷歌 Gemini 正在探索的方向,我们也对此持乐观态度。
至于像 Chatbot Arena 这类基准测试,参考价值有限。它们评估的多是特定任务,不一定符合真实用户行为。我们曾试过过度调优模型以提升排行榜名次,结果反而背离了用户期望的实际体验。因此,我们更重视 Meta AI 应用中的用户真实反馈,而不是盲目追求榜单成绩。
此外,很多基准测试也很容易被“刷榜”。例如 Sonnet 3.7 是一款非常强的模型,但在榜单上的位置并不突出。同样,我们也可以轻松将 Llama 4 Maverick 的调优版本推到榜首,但我们选择的是发布未经调优的基础版本,表现自然偏低。我们更关注实际产品中的用户体验,而不是在排行榜上的名次。
目前,每个实验室的目标都是创造通用人工智能或超级智能,推动进入一个人人都能利用这些超智能工具创造富足世界的时代。这种智能革命能带来巨大的经济效益和个人赋能。
不过,不同的团队确实在不同方向上优化。比如,Anthropic 的团队专注于编码和相关智能体;OpenAI 则更注重推理能力。我的猜测是,最广泛使用的方向会是快速、自然互动的智能体,它们具备原生多模态能力,能够适应日常生活中的不同互动场景。
几年后,我们可能会全天候与 AI 对话,解决我们在生活中遇到的各种问题。随着技术的发展,未来可能会出现像智能眼镜这样的设备,人与 AI 的互动将无缝地贯穿在日常生活中。
02 智能爆炸,代码将由AI自动编写
问:许多人认为,一旦软件工程和 AI 研究完全自动化,就能引发一场智能爆炸。届时,你将拥有数百万个软件工程师的副本,在几周或几个月内完成从 Llama 1 到 Llama 4 的研究进展,而非数年的时间。因此,实现闭环的软件工程师(AI)至关重要,这是抢先达到超级人工智能(ASI)的关键。你怎么看?
扎克伯格:这是一个非常吸引人的想法,因此我们也投入了大量精力开发编码智能体。但我们并非专门的企业软件公司,而是根据自身需求开发了适合自己的编码和 AI 研究智能体。我们的目标是推动 Llama 项目的进展,并让这种智能体完全融入我们的工具链。
我预计在未来 12 至 18 个月,许多与 AI 相关的代码将会由 AI 自动编写。这个智能体不仅能自动补全部分代码,还能够根据目标自动编写、测试和改进代码,甚至在某些方面,性能可能比普通开发者更优秀。这将是 AI 发展的一个重要方向。
然而,我并不认为这就是唯一的方向。AI 行业将非常庞大,AI 将在多个领域发挥作用。一些实验室将专注于企业应用或编程领域,而另一些则可能侧重于生产力提升、社交、娱乐等领域。未来将有更多针对信息提供和生产力提升的模型,也会出现更多注重陪伴性质的模型。总体来说,AI 的应用空间是巨大的。
问:为什么不直接实现超级智能,而首先要开发个人助理?
扎克伯格:我通常并不完全认同智能会快速爆发,原因在于构建物理基础设施需要时间。就像英伟达生产芯片一样,他们需要建造厂房、获得审批、确保能源供应,并依赖完整的供应链。
此外,AI 助手的普及同样需要时间。用户需要通过反馈不断学习如何高效使用这些系统,而 AI 也需要时间来理解用户需求,并进行持续改进。从长远来看,这种共进式的进化将是 AI 发展的核心。
再者,正如几年前我们在广告团队做的自动化实验排名系统所示,即使你有 35 亿用户,仍然会面临计算和实验测试资源的瓶颈。我们发现,即使有大量想法,实际的计算能力和实验规模往往会限制进一步的进展。因此,AI 的全面发展不仅仅依赖于编码能力,它还需要基础设施、用户反馈和供应链等各方面的共同推动。
03 AI朋友、治疗师与虚拟伴侣将成现实
问:如何与AI建立健康关系?
扎克伯格:这个问题只能在观察到相关行为后,才能更好地回答。最重要的一点是,从一开始就要关注这个问题,并在每个阶段都加以考虑。但我也认为,过于先入为主地规定什么是不好的做法,可能会限制AI的潜在价值。人们使用的东西对他们来说是有价值的,设计产品的核心原则之一就是相信用户是聪明的,他们知道什么对自己的生活有价值。虽然有时某些产品可能会出问题,但我们需要确保在设计时尽量减少这些风险。
我认为 AI 将在许多社交任务中被广泛使用。事实上,Meta AI 已经被许多人用来帮助自己与他人进行棘手的对话,比如“我和女朋友有问题,怎么谈?”或者“我需要和老板谈谈,怎么开口?”这些应用在很多情况下都非常有帮助。
随着个性化算法的不断进化,AI 会越来越了解用户,进而变得更具吸引力。我曾做过一个有趣的统计:美国人平均只有不到三个朋友,而大多数人希望有更多的朋友,理想数量大约是 15 个。然而,现实中,人们常常因忙碌而难以处理更多的社交关系,虽然他们内心深处希望拥有更多的联系人。
有些人担心 AI 会取代现实中的人际关系。我个人认为,答案可能是否定的。尽管现实中的社交关系有许多优点,但人们往往没有他们想要的那么多联系,很多时候会感到孤独。
当然,这个领域仍处于初期阶段。现在,已经有些公司在开发虚拟治疗师或虚拟伴侣类的应用,但技术仍处于非常初步的阶段。现在打开这些应用,你通常看到的只是治疗师或人物的静态形象,偶尔有一些粗糙的动画效果,但这并不是真正的“具身”呈现。
我们在 Reality Labs 的项目,比如 Codec Avatars,能够让你感觉到和一个真实的人在交流。未来,你将能够与 AI 进行随时随地的视频通话,身体语言也将变得至关重要。毕竟,在真正的交流中,超过一半的沟通并不是语言,而是非语言的部分。
04 DeepSeek模型非常棒,但缺多模态功能
问:你提到过物理基础设施是一个重要的瓶颈。比如像 DeepSeek 这样的开源模型,它目前的算力规模不如 Meta,但其模型在某些方面已经接近 Llama。如果中国在基础设施建设、大规模工业化、电力扩展和数据中心部署方面做得更好,你会担心他们在这方面超越我们吗?
扎克伯格:这确实是一场激烈的竞争。现在可以看到国家层面的产业政策在发挥作用。中国正在大力建设电力基础设施,这也是为什么美国必须加快数据中心建设和能源生产的审批流程。如果我们不加速,可能会处于显著的劣势。
与此同时,我们也看到像芯片出口管制这样的措施确实在产生影响。以 DeepSeek 为例,很多人都称赞它在底层优化方面做得非常出色,但这也引出了一个问题:为什么他们必须进行这些优化,而美国的实验室却没有做?原因在于,DeepSeek 使用的是受限的英伟达芯片——即被限制出口到中国的降规版本。这迫使他们投入大量精力进行底层优化,以弥补算力上的差距。
DeepSeek的优化确实做得很好,最终的文本模型表现也相当不错。但现在,每一个领先的大模型基本上都是多模态的,能够同时处理图像和语音。而 DeepSeek 目前仍然是文本单模态。问题的关键是:为什么他们没有做多模态?我认为,并不是他们做不到,而是因为他们必须优先把资源投入到基础设施的优化上。
当我们将 Llama 4 与 DeepSeek 做对比时,实际上我们在文本能力上已经达到了与DeepSeek相当的水平,甚至在更小的模型上实现了类似的表现,意味着在单位成本下实现了更高的智能。另一方面,在多模态方面,我们领先于 DeepSeek,而后者目前并没有这些功能。
因此,总体来看,Llama 4 相比 DeepSeek 是更具优势的模型,大多数用户也更可能选择使用我们的模型。但我们必须承认,DeepSeek 团队确实非常强大。你提到的关于电力、算力、芯片等方面的可获取性问题也非常重要——现在看到的模型性能和创新方向,很大程度上取决于这些底层资源的可获得性。
05 AI商业化,广告模式与付费服务并行
问:你认为 AI 商业化的正确途径是什么?广告是否可能不是最佳模式?
扎克伯格:AI 会有各种不同的应用,而不同的应用场景适合不同的商业模式。
广告仍然是一个非常有效的方式,特别适合那些提供免费服务的场景。通过广告变现,用户可以无需支付费用,而广告收入则能够覆盖服务成本。如果广告系统设计得足够精细,它不仅可以实现盈利,还能提升用户体验,比如通过精准推荐让广告变得更加有价值。当然,这也需要庞大的广告主基础和强大的排序系统来支持。
然而,这种模式并不适用于所有的 AI 应用。对于一些计算成本较高且价值较大的应用,如 AI 软件工程师助手,免费加广告的模式显然不合适,反而更适合采用直接付费的方式。就像人们愿意为 Netflix 或 ESPN 付费一样,那些高价值且高生产成本的内容或服务,用户也更愿意为之买单。
未来,AI 相关产品将覆盖从完全免费的消费者级工具到需要高额付费的专业级服务的全谱系。Meta 将继续推动消费端的免费服务,并通过广告进行变现,但也会推出高阶、可扩展计算能力的付费服务,以满足更高级别的需求。在这方面,我们的核心价值观很明确:我们希望为全球尽可能多的人提供服务。
06 软件开发效率提高将释放巨大创造力
问:如果软件开发效率在两年内提升100倍,会发生什么?哪些目前无法实现的事情会成为现实?
扎克伯格:在过去的一百多年里,人类社会经历了从以农业为主、主要精力用于生存,到逐渐腾出更多时间进行创意和文化活动的转变。随着AI提升软件开发效率,这一趋势将会进一步加强,释放出巨大的创造力。
随着时间推移,几乎每个人都能够使用超人般的工具,创造出各种不同的事物。因此,我预见AI工具将会出现显著的多样性。其中一部分将用于解决重大难题,例如攻克疾病、推进科学认知,或开发改善我们生活的技术。然而,我也认为,许多创造性应用将集中在文化、社交活动和娱乐领域。
另外,我对未来一个有趣的想法是,虽然AI提高了效率,但并不会减少社会对人的需求。相反,它会创造更多的就业机会。以Meta为例,我们一直难以为全球35亿用户提供语音客服,主要是因为成本太高。但如果AI能够解决90%的问题,剩下的部分交给人工处理,就可以大幅降低成本,从而让语音客服变得更具可行性。事实上,AI的应用可能反而会促使Meta雇佣更多的客服人员。
再比如,人们曾预言卡车司机的工作会因自动驾驶而消失,但实际上,如今卡车司机的岗位数量比大约20年前我们刚开始讨论自动驾驶时还要多。总的来说,即便某项技术能够减少某个环节90%的工作量,其最终结果往往是增加了对人力的总体需求,而非减少。(腾讯科技特约编译金鹿)