阿里新发三款Qwen大模型:Qwen3-Max文本能力超越GPT-5-Chat
9月24日凌晨,阿里巴巴Qwen团队接连发布了三款重要模型:Qwen3Guard,安全审查模型;Qwen3-Max,阿里巴巴迄今为止规模最大、能力最强的模型,对标OpenAI的GPT-5-Chat;以及Qwen3-VL,迄今为止Qwen系列中最强大的视觉语言模型。
Qwen3Guard:三种规模,支持119种语言
Qwen3Guard是基于Qwen3模型构建的全新安全审查模型系列,旨在为全球用户提供实时、高效的人工智能安全保障。

Qwen3Guard的核心亮点包括:
• 卓越的语言支持:Qwen3Guard能够支持多达119种语言和方言,满足全球化应用场景的需求,确保不同文化和地区的用户都能获得同样水平的安全保护。
• 灵活的模型尺寸选择:为了适应不同的部署环境和性能要求,该系列提供了三种不同规模的模型:分别是Qwen3Guard-Gen-0.6B、Qwen3Guard-Gen-4B和Qwen3Guard-Gen-8B,方便开发者根据具体需求进行选择。
• 实时流式检测能力:通过专门设计的Qwen3Guard-Stream模型,系统能够实现低延迟的实时流式内容检测,为需要即时响应的应用场景提供保障。
• 强大的上下文安全分析:Qwen3Guard-Gen模型则专注于稳健的全上下文安全分析,尤其适合作为强化学习(RL)中的奖励模型,从更深层次提升AI模型的安全性。
• 精细化的三级风险分类:模型采用三级风险分类系统,将内容明确划分为“安全”、“争议性”和“不安全”,为内容审查提供了清晰、直观的判断依据。
• 行业领先的性能表现:在包括英语和中文在内的多项安全基准测试中,Qwen3Guard均展现了当前最顶尖(SOTA)的性能,证明了其在识别和管理不安全内容方面的卓越能力。

Qwen3-Max:文本能力胜过GPT-5-Chat
Qwen3-Max是阿里巴巴迄今为止规模最大、能力最强的模型。

其中,Qwen3-Max-Instruct预览版已在LMArena文本排行榜上稳居全球前三,超越了GPT-5-Chat等知名模型。而正式发布的版本在预览版的基础上进一步强化,尤其在编程和智能体任务上展现了卓越的性能。
Qwen3-Max-Instruct的核心亮点包括:
• 顶尖的代码能力:在专注于解决真实世界编程难题的SWE-Bench Verified基准测试中,Qwen3-Max-Instruct取得了69.6分的成绩,稳居全球顶尖模型之列。
• 突破性的智能体表现:在评估智能体工具调用能力的Tau2-Bench基准测试中,Qwen3-Max-Instruct以74.8分的突破性表现,超越了Claude Opus 4与DeepSeek-V3.1等强劲对手。
• 全面的性能领先:在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中,Qwen3-Max-Instruct均达到了业界领先水平。

此外,仍在训练中的Qwen3-Max-Thinking版本已展现出非凡的潜力。在结合工具使用并增加测试时计算资源的情况下,该模型在AIME 25和HMMT等高难度推理基准测试中取得了100%的准确率。
目前,开发者已可以通过阿里云API或直接在Qwen Chat上体验和试用Qwen3-Max-Instruct的强大功能。
Qwen3-VL:从“感知”到“认知”

Qwen3-VL是Qwen系列中迄今为止最强大的视觉语言模型,在纯文本理解、视觉内容感知、上下文处理、空间关系乃至视觉智能体(Visual Agent)交互等多个维度实现了全面飞跃,旨在让AI不仅能“看到”世界,更能真正地“理解”世界。
本次率先开源的是该系列旗舰模型Qwen3-VL-235B-A22B,包含Instruct与Thinking两个版本。其中,Instruct版本在多项主流视觉感知评测中,性能已达到甚至超越Gemini 2.5 Pro;而Thinking版本更是在众多多模态推理基准测试中取得了行业顶尖(SOTA)的表现。

Qwen3-VL的核心亮点包括:
• 视觉智能体能力:Qwen3-VL能够操作电脑和手机界面,识别GUI元素并理解其功能。它可以通过调用工具来执行复杂任务,在OS World等权威基准测试中达到世界顶尖水平,显著提升了在细粒度感知任务上的表现。
• 媲美顶级语言模型的纯文本能力:得益于在预训练早期就融合文本与视觉模态进行协同训练,Qwen3-VL的文本能力持续强化,最终在纯文本任务上的表现与Qwen3纯文本旗舰模型不相上下,是真正“文本根基扎实、多模态全能”的新一代视觉语言模型。
• 视觉编码能力大幅提升:实现图像生成代码以及视频生成代码,例如将设计图自动转换为Draw.io或HTML/CSS/JS代码,迈向“所见即所得”的真正视觉编程。
• 空间感知能力大幅提升:实现从2D到3D的跨越,能够理解相对坐标、物体方位、遮挡关系,为复杂空间推理和具身智能应用奠定基础。
• 长上下文与长视频理解:全系列模型原生支持256K token的上下文长度,并可扩展至100万token。这意味着该模型能够完整处理数百页的技术文档、整本教材乃至长达两小时的视频,实现全程记忆和秒级精度的内容定位与检索。
• 显著增强的多模态思考与推理能力:专为复杂推理优化的Thinking版本,在STEM与数学领域表现突出。面对专业问题,它能捕捉细节、分析因果,给出逻辑严谨的答案,在MathVision、MMMU等权威评测中达到领先水平。
• 全面的视觉感知与识别升级:通过优化预训练数据,模型能够识别更丰富的对象类别,覆盖名人、动漫角色、商品、地标、动植物等,满足日常生活与专业领域的“万物识别”需求。
• OCR能力大幅提升:OCR支持更多语言及复杂场景,支持语言从10种扩展到32种,并能更好地应对模糊、倾斜等复杂实拍场景。对生僻字、古籍字、专业术语的识别准确率也显著提升。
Qwen3-Coder:终端任务能力与代码安全性全面提升
除了新发三款大语言模型,阿里巴巴还对其业界领先的编码模型Qwen3-Coder进行重大升级,并推出新的API qwen3-coder-plus。此次升级在终端任务处理能力、基准测试性能以及代码生成安全性方面均实现了显著提升。

升级后的Qwen3-Coder现已通过阿里云Model Studio正式对外提供服务,开发者可立即体验其增强功能。
本次升级的核心亮点包括:
• 显著增强的终端任务能力:新版本大幅优化了模型在终端(Terminal)环境中的任务执行能力,在Terminal Bench基准测试中表现更佳。
• 顶尖的基准测试表现:在衡量解决真实世界编程问题的SWE-Bench基准测试中,升级后的模型性能分数高达69.6分。
• 更安全的代码生成:此次升级特别强化了模型的安全性,能够生成更加安全可靠的代码,帮助开发者有效规避潜在的安全风险和漏洞。
此外,阿里巴巴旗下的编码产品Qwen Code也同步进行了功能升级,新增了对多模态模型和子智能体(sub-agent)的支持。这意味着,用户现在可以在与Qwen Code协作编程时直接输入图片,极大地扩展了其应用场景和交互维度。(文/腾讯科技特约编译金鹿,编辑/海伦)
来源:https://x.com/Alibaba_Qwen