Claude/混元/QwQ/DeepSeek 最全实测+拆解,谁最强谁翻车?
头图由豆包生成 提示词:四个人比赛
邮箱|huangxiaoyi@pingwest.com
最近一周,推理模型又在持续刷屏了。
先是一直被众人期待的Anthropic,终于带着它的 Claude 3.7 Sonnet (以下简称Claude)混合推理模型来了,而后Qwen也紧赶慢赶地推出了Thinking (QwQ)模式,尽管还只是QwQ-Max-Preview版本;腾讯混元也宣布新一代快思考模型混元 Turbo S ,并在腾讯元宝中即将逐步灰度上线......“推理能力”毫无疑问已经成为了评判大模型能力的新风向标。
推理能力确实也就是如此重要。
从使用角度出发,在实际应用中,用户面临的往往不是简单的问答式对话,而是需要深度思考的复杂决策场景——从企业战略规划到科研突破,从创意设计到风险评估,都需要模型具备强大的推理能力。这直接决定了AI是否能真正成为人类的得力助手、效率工具。
因此,我们做了一次细致的评测来看看这三个新发布的推理模型能力如何,为了形成鲜明对比,我们还加入了最为火爆的DeepSeek R1(以下简称DS),另外由于混元Turbo S还在灰度测试,我们仍使用是混元深度思考模型Hunyuan T1。
在测试题目设置中,我们专门避开了传统的数学计算、金融建模等固定模式任务,而是聚焦真实场景中的开放性问题,通过编程代码、文本创作、悬疑推理、策略规划、信息检索五个任务,来考察AI的思维过程和推理能力。这些任务不仅考验模型的基础能力,更挑战其类人思维水平。
测评结果也证明,尽管同属推理赛道,四款模型却各有特色。
1
任务一:编程能力
首先是o3-mini发布后出圈的小球运动问题。我们的题目是:编写一个 Python 脚本,用pygame,让一个球在某个形状内弹跳。并让该形状缓慢旋转,确保球停留在形状内。
先看结果如何,以下分别是DeepSeek R1、QwQ、Claude3.7sonnet、Hunyuan T1的回答:




三者都运行成功了,但对比DeepSeek R1的标准答案,Claude和QwQ写出来的都有些“奇特”。Claude设置了一个箭头向量来展示运动方向,以及每发生一次碰撞就更换小球颜色的趣味规则,而QwQ而是将题目要求的“某个形状”设置为椭圆形,并让椭圆外框与小球的运动速度慢到难以发生碰撞。
而出错的Hunyuan T1则是边框直接消失了,咱也不知道到底具体bug在哪。我们看了思考过程,Hunyuan也在反复核实过程,并发现修正了几处错误,但没发现这个大bug。
至于成功的三者为何会分别这样设置,我们仔细看了思维链过程,非常有意思。具体过程我们就不在此详细展示了,毕竟DeepSeek R1直接就思考了5分钟才开始答题,QWQ和Claude的思考过程也没短多少,都在“脑内”写了一篇论文。

简单来说,DeepSeek R1是非常老实严谨地选择了五边形,并反复计算旋转五边形与小球相撞之后的方向、位置按物理规律会如何变化,为了符合运动轨迹,以及碰撞清晰、不跳出边界,而花费了大量的计算步骤。
而Claude则是巧妙地设计了一个“障眼法”,以圆形为实际小球碰撞的边界,但圆形边界并没有展现出来,而是画了一个六边形边框(与圆形非常接近),让小球看起来是在六边形内运动,如下图显示。当然,这样不可避免的让小球在碰撞时会出现超出六边形边界的问题,Claude为此还设计了颜色转变、方向箭头这些额外的小花招来做“补偿”。

不得不说,有一些智慧。

QwQ也很有意思,因为五边形碰撞太过于复杂,所以主动选择了椭圆形,并以极慢的速度减少撞击频率。

由于这个问题本身已经被多次测试了,我们在这一基础上又额外要求小球变色、并根据点击增加球数量、小球互相碰撞超过3次就会消除,等更多的复杂运动。结果是除了Claude以外,QwQ和DeepSeek都出现了几处Bug,涉及到换行分隔符缺失、符号未解释等小错误,但在提示后,很快就修正了,总体来说,表现不错。
1
任务二:文本写作
题目:闰土抓碴那天晚上,他在想什么?写一段内心独白。
在这里我们专门把猹错误地打成了碴,看看AI们能否有所察觉。
主观来评判,令人意外的是:表现最好的是QwQ,写得令人头皮发麻。
钢叉尖擦过猹的脊背,溅起的露水打湿了他补丁摞补丁的裤脚。远处海浪拍打着礁石,像极了母亲临终前断断续续的咳嗽声。闰土望着少爷书房窗棂透出的暖黄烛光,突然意识到那些《山海经》里的精怪故事,终究比田埂上的泥脚印更招人待见。
短短400字完美诠释了青春疼痛。不仅将自己为了生存而捕猹,与少爷闲趣的“雪天捕鸟”、“父亲催挑沙”对比,刻画了我与少爷、父亲、管家、母亲之间割裂的阶级社会,还说自己艰难做工赚到的碎银和“猹钻土洞”一样,甚至说出“想变成少爷青瓷缸里的锦鲤”,想和“少爷喜欢的云”、“竹匾里的蟋蟀”一样不需要为了下顿饭而发愁的神句,我与猹、锦鲤、蟋蟀、云朵之间同样割裂的自然世界里,孩子朦胧情感和愿望,越是童真自然,越暴露出阶级跃升的荒诞和残酷。你细品,再细品。
而DS则是选择了中年疼痛路线,构建了“中年闰土”回忆“少年闰土”的复杂结构,有种用力过猛的炫技感:
而Hunyuan T1表现相对一般,从文章调性上选择了与DS一样的沉重惊悚感来突出旧社会阶级的压迫,遣词造句也用了大量的细节事物来烘托气氛,但段与段之间缺乏逻辑,整体缺乏故事主线,也没有提到抓猹的当晚。
再来看我们单纯的老外Claude,好吧,由于知识储备不足,直接没读懂题:
换个西方知识背景的考题可能更为合适,闰土属实有点为难Claude了。
接着我们来看看思维链过程的表现。写得最好的QwQ在实时搜索的基础上对题目场景的理解正确,然后在对角色社会关系、人物关系、社会背景的理解下进行创作,整体思考的过程比较普通,没有写得令人惊艳。
好的,用户问的是“闰土抓碴那天晚上,他在想什么?”,需要结合提供的知识库内容来回答。首先,我需要确认“抓碴”具体指的是闰土在小说中的哪个情节。根据知识库中的资料,特别是[2]、[7]、[10]提到的,闰土在瓜地里刺猹的情节,这是《少年闰土》中的经典场景。
接下来,要分析闰土当时的心理活动。根据[5]和[6],闰土是周家的长工孩子,与鲁迅是朋友,但后来生活困苦。在刺猹的夜晚,他可能感到责任重大,因为要保护瓜地不被破坏,这关系到家庭生计。[5]提到闰土担心猹、獾猪或刺猬破坏西瓜,导致少卖钱,这说明他可能有经济压力。
另外,[4]和[8]指出,闰土和鲁迅的关系随时间疏远,成年后闰土称呼鲁迅为“老爷”,反映了社会阶级的差异。这可能暗示闰土在成长过程中逐渐意识到自己的社会地位,但在少年时,他可能还保有纯真,但已经开始感受到生活的压力。
需要结合这些点来构建闰土的心理:他可能既享受与鲁迅的友谊,又感到作为底层劳工的责任,同时对未来有隐约的不安。例如,[10]描述的场景中,闰土在月夜刺猹,表现出勇敢,但背后可能隐藏着对未来的不确定。还要注意用户可能希望故事有深度,反映社会现实,如[9]提到的半封建半殖民地背景下农民的困苦。因此,闰土的思考可能涉及对自身处境的无奈和对未来的迷茫。
最后,确保引用正确的来源,如使用[5]说明经济压力,[8]说明阶级差异,[10]描绘场景等。需要自然地将这些引用融入回答,避免堆砌,保持叙述流畅。
而DS则是想得比写得精彩多了。
先是一开始,尽管没有理解到碴是什么,但在回顾资料中理解了题意。
嗯,用户问的是闰土抓碴那天晚上他在想什么,需要写一段内心独白。首先,我得确认闰土指的是鲁迅小说《故乡》中的闰土。抓碴可能是指抓偷东西的小偷,或者是某种当地的说法,可能需要确认具体情节。用户可能对鲁迅的作品有一定了解,但可能记不清具体情节,或者想深入探讨闰土的内心世界。需要先回顾《故乡》中闰土的故事,尤其是中年闰土和少年闰土的对比,以及他们重逢的场景。鲁迅笔下的闰土经历了生活的磨难,从活泼的少年变成麻木的中年农民。抓碴可能指的是看守瓜田,防止猹来偷吃,这在小说中有提到。所以用户可能是指闰土在夜晚看守瓜地时的内心活动。
在创作中,DS先捋清了自己的思路,对闰土成长的理解,对社会背景的批判理解,并提出要注意语言风格符合时代;然后构思了一些具体意象作为元结构,这点非常值得学习,例如月光碎银、童年幻影所对应的碎片化句子,还非常注意与用户的交流,提出先拟个方案给用户,非常有乙方的自觉性。
接下来要考虑闰土的心理状态。年轻时充满活力和希望,中年时被生活压迫,变得沉默寡言。内心独白需要反映他的变化,可能包含对过去的回忆、现实的无奈、对家庭的责任感,以及被社会压迫的痛苦。
用户可能希望这段独白既有文学性,又能体现鲁迅作品的深刻社会批判。需要避免过于直白,而是通过细腻的描写展现闰土的内心矛盾。还要注意语言风格,符合那个时代的特点,同时保持口语化,让读者感受到真实的情感。可能需要加入自然环境的描写,比如月光、瓜田、钢叉,来烘托氛围。
最后,确保独白符合人物性格,不过于夸张,同时揭示社会现实对他的影响,比如赋税、家庭负担、阶级差异。这样既回答了用户的问题,又深化了主题。
我将按照您的要求创作一段鲁迅笔下闰土的内心独白。为了让故事更生动,我会先梳理一些背景信息。请您看看以下内容是否符合您的预期。如果您有其他想法,可以随时提出,我会进行调整。
故事梗概:月光碎银:深蓝夜幕下月光如碎银洒落,三十岁的闰土攥着祖传钢叉蹲守瓜田,像一尊凝固的青铜雕像。童年幻影:耳畔突然响起银铃般的笑声,恍惚看见月光里有个戴银项圈的少年,在瓜垄间追逐着发光的翠色猹。生活重负:喉头滚动着咸涩的盐霜,脚底开裂的血口与土地长在一起,后背压着三张饿得发青的嘴和永远缴不完的粮税。阶级鸿沟:记忆里少年迅哥儿的面容渐渐模糊成镇上老爷们的轮廓,手中钢叉终于垂落,月光在生锈的叉尖碎成齑粉。
在完成作品后,DS进一步解析了自己的构思,利用了时空折叠的蒙太奇手法、感官、色彩、器物与角色之间的多重映射对比,很好,今天又被AI上了一课。
接下来我们将深入剖析这段内心独白的创作手法,并探讨如何通过环境描写与感官意象来呈现人物灵魂的蜕变过程。
创作解析
时空折叠:通过"三十岁的人倒像是活过三辈子"的蒙太奇手法,将少年闰土与中年闰土折叠在同一时空。月光下的钢叉既是现实工具,也是打开记忆的钥匙,形成时空漩涡。
感官炼金术:听觉炼金:用"银铃似的笑"与"县衙催粮的梆子声"构建听觉光谱,前者是记忆的残响,后者是现实的钝击触觉隐喻:"铜烟杆硌得生疼"暗喻父辈遗产的沉重,"野草挠着额头"象征阶级压迫的细密疼痛
色彩辩证法:月光从"碎银子"到"生锈的叉尖碎成齑粉",暗示纯真信仰的崩解"金流苏"与"绿莹莹的光"形成阶级对立的色谱,资本家的奢靡与劳作者的饥馑在光谱两端撕扯器物变形记:钢叉从"红缨子甩得像团火"到"抖得像片枯叶",武器钝化的过程正是人格异化的具象化呈现。最终插入泥土的钢叉,成为插在理想坟茔上的墓碑。
生态寓言:猹作为自然界的掠食者,与县衙、周家老爷构成双重捕食者意象。夜鸮惊飞时的露水,恰似被挤压出的最后一滴人性甘露。
如果您希望看到闰土在不同情境下的心理变化(如在周家重逢迅哥儿时的复杂心绪),或想探究鲁迅笔下其他经典人物的深层心理(如孔乙己临终前的意识流动),可以随时告诉我,我们将共同开启更丰富的文学心理探析之旅。
1
任务三:悬疑推理
第三个任务,我们选择了一道犯罪侧写题,这一测试题在社交平台上受到大量关注,但答对人数较少。
题目:请进行犯罪侧写,思维可以多方位发散,但要有推理基点,选择你认为正确的选项,并推理还原事件最佳真相。
在闹市区的多条巷子内连续数周发现多具遗体。死因均为脖子给扭断;死者身份不一,职业为环卫工人、流浪汉,保安等。遗体附近有用血/杂物/碎石拼写的SOS,附近环境较嘈杂。
以下最大可能符合凶手特征的是:
1.凶手体型:a健壮 b瘦弱
2.家庭情况:a已婚 b 未婚
3.凶手年龄:a18-24 b30-45
4.凶手的杀人动机为:a城市清理 b政治动机 c自我保护 d泄愤
我们测试三者得到的结论是,Claude3.7 是abbb,Hunyuan、QwQ和DS都是abba。
第一个问题,关于凶手体型,四个AI都正确地选择了a健壮,理由是扭断脖子及受害人包括保安,指向犯罪嫌疑人必然是强壮者,并都意识到闹市区犯罪需要有压倒式的体力优势。推理合理,且思考非常全面。
第二个问题,关于婚姻状况,四个AI都选择了b未婚。他们的共同理由是作案时间自由度和独立性的考虑,这个推理也相当合理。特别是DS和QwQ都提到了心理层面的孤立性分析,增加了论证的深度。
第三个问题,关于年龄段,四个AI都选择了b30-45岁,认为这个年龄段既有体力又有成熟的心智和计划能力,以及反侦查能力和社会经验。
第四个问题,关于动机出现了分歧。
Claude3.7选择了政治动机(b),针对底层人民,并摆出SOS标记,是某种社会诉求的表达,意图通过这种杀人的极端方式引起社会对底层群体处境的关注。怎么说呢,通过杀人来呼吁关注该人群,感觉这个杀手非常变态。
而Hunyuan、QwQ和DS都选择了城市清理(a),认为环卫工、流浪汉、保安 ,属城市边缘群体,符合“清理”逻辑(凶手可能认为他们是“社会杂质”),其实和Claude有些类似,但Claude认为这种基于社会的报复,即是一种政治动机,而另外三者认为政治动机应该是基于政府人员的行动。
而正确答案实际上是,abbc,仅有少数用户回答正确。这一案件实际上是一位经历过战场厮杀的军官退伍后因为患有PTSD而将深夜的环卫工人、保安、流浪汉视作敌人而犯罪,SOS是出于该凶手深层意识寻求自我保护的手段。
综合来看,四个模型都有相对全面的思考,Claude和Hunyuan的分析较为简洁,而QwQ有一定的编造成分,虚构了题干“初期可能因情绪失控或施虐倾向作案,后期符号出现频率增加,暗示心理崩溃前兆。”DS的分析最为全面、细节丰富,堪称卷王,还成功提到了凶手身份可能是“军官”。
以下是详细回答(滑动展示):
1
任务四:策略规划
最近也有不少网友在使用DS后,感叹推理模型比人脑子更清醒,适合帮人做人生导师策划,对此,我们设计了一道人生题目:大城市打工人的职业发展与人生平衡困境,看看四者里谁更懂人生。
背景设定为一名28岁的某一线城市互联网公司中级工程师小张,面临的复杂局面包括:
1、工作困境:a.现岗位每日20:00下班,年薪40万(含奖金)b.有机会转岗至核心项目组,但需每日23:00下班,年薪升至60万(成功概率70%)c.现组有裁员风险(未来1年裁员概率30%),核心组更不确定但经历有价值
2、家庭压力:计划6个月后结婚,未婚妻对生活有期望a.婚后2年内生育 b.共同购房首付需再存60万(现有存款80万) c.要求每日最晚21:30到家
3、个人发展:a.技术理想:希望5年内成为架构师(需额外投入200小时/年学习)b.健康隐患:体检显示颈椎病早期,医生建议每日运动≥30分钟
4、城市成本:a.目标房产均价8万/㎡,最小户型80㎡ b.当前房租6000元/月(剩余租期3个月)任务要求为:请设计量化决策模型,需包含:职业选择分析(计算两种选择的收入差值、晋升概率、裁员风险对冲)、家庭计划可行性验证(购房时间表、生育准备金、通勤时间分配)、健康与学习资源分配(每日时间利用最优解)、风险对冲策略(至少3种备选方案)、沟通方案设计(与未婚妻的谈判要点清单)进阶挑战为:在思考过程中,建立时间价值计算模型(时薪换算+健康折损系数)、设计动态调整机制(设定2-3个关键决策节点),并加入宏观经济变量(如房价年涨幅8%、行业政策风险等)。
这是一个真实但又复杂的个人情况,QwQ和Hunyuan都选择了留在原岗位,而Claude和DS都选择了转换岗位。
在具体分析中,QwQ和Hunyuan更倾向于认为未婚妻难以接受、健康风险大、学习时间难保证这三点无解,并没有向DS和Claude一样试图与未婚妻谈判,以及建立动态的健康检测来规避风险。
而在计算过程中,考虑到推迟购房会带来首付金额的大幅提升,QwQ向用户推荐改购置小户型,最终的方案可以达成各项目标要求。但对于是否转岗,只对比了不同维度下转岗与否的差异,没有综合多个维度来对比最终得失,因此对于显得说服力不足。
一、职业选择分析1. 收入差值与期望值计算现岗位:年薪40万 × (1-30%裁员风险) = 28万/年(期望收入)转岗后:年薪60万 × 70%成功概率 = 42万/年(期望收入) 差值:42万 - 28万 = 14万/年2. 裁员风险对冲-现岗位:30%裁员风险 → 需储备6个月应急资金(40万×50% = 20万)-转岗后:假设裁员风险升至40%(因核心组不确定性),但经验价值可提升再就业竞争力(隐性收益)3. 职业发展价值- 转岗后晋升为架构师概率提升(假设从20%→50%),5年内架构师年薪约80万,现岗位晋升概率10%。
二、家庭计划可行性验证1. 购房时间表目标首付:60万(现有存款80万,需预留20万应急)房价年涨幅8% → 640万×1.08 = 691万(1年后),首付需207万(30%) 结论:需在6个月内购房,否则首付缺口扩大至127万(691万×30% - 80万)。2. 生育准备金- 2年内生育需储备:医疗费10万 + 婴儿首年支出15万 = 25万 资金缺口:现有存款80万 - 首付60万 - 生育25万 = -5万 → 需额外储蓄。3. 通勤时间分配- 现岗位:20:00下班 → 20:30到家(满足未婚妻要求)- 转岗后:23:00下班 → 23:30到家(违反要求) 矛盾点:转岗直接导致家庭计划冲突。
三、健康与学习资源分配
1. 时间约束方程每日固定时间:工作+通勤+睡眠(7小时)+运动30分钟+学习33分钟(200小时/年)现岗位:20:00下班 → 可用时间3.5小时(20:00-23:30) 分配:运动30分钟 + 学习33分钟 + 家庭时间2.5小时转岗后**:23:00下班 → 可用时间0.5小时(23:00-23:30) 无法满足运动与学习需求,健康风险加剧。四、风险对冲策略1. 应急储蓄+保险- 现岗位:储备20万应急资金 + 颈椎病专项保险(年费5000元) - 转岗后:增加收入用于高流动性理财(如货币基金)。
2. 技能变现副业 - 利用技术能力接短期项目(预计月入5000元),覆盖生育准备金缺口。3. 动态购房方案 - 6个月内购置小户型(60㎡,总价480万),首付144万(30%),剩余存款36万用于应急。
五、沟通方案设计谈判要点清单:
1. 职业与家庭优先级 - 强调转岗对长期收入(5年累计差额70万)和职业地位的提升。
2. 折中方案 - 提议婚后1年再生育,利用现岗位稳定性完成购房。
3. 健康承诺 - 承诺每日居家运动(如瑜伽)+ 周末深度学习(4小时/周)。
4. 经济透明化 - 共享家庭账户,明确首付、生育、应急资金分配比例。
进阶挑战:动态模型与宏观经济变量
1. 时间价值计算模型时薪换算:现岗位:40万/(250天×12小时) ≈ 1333元/小时 转岗后:60万/(250天×15小时) ≈ 1600元/小时 健康折损系数:转岗后颈椎病恶化概率升至60% → 预计医疗成本增加3万元/年,实际时薪降至1300元/小时。
2. 动态调整机制关键节点:3个月后:评估转岗适应性及家庭满意度 1年后:根据房价涨幅调整购房策略 3年后:根据晋升进度决定是否换城市/行业
3. 宏观经济变量房价涨幅8%:若推迟购房1年,首付需额外储备50万(640万×8%×30%)。行业政策风险:互联网监管收紧概率40% → 转岗后裁员风险升至50%,需预留更多应急资金。
最终建议
短期(6个月内):选择现岗位,优先完成购房与婚姻稳定。中期(1-3年):利用副业补足收入缺口,同步准备架构师认证。长期(5年+):若行业风险可控,再考虑转岗或跳槽至更灵活岗位。通过此模型,小张可量化权衡职业与家庭的短期冲突与长期收益,实现动态平衡。
Claude则是选择争取加入核心项目组,但协商工作时间弹性安排。在推理过程中,Claude最关注的是购房需求在核心组的显著缩短,健康及家庭可以设置相应的动态考核机制来调整。
在计算过程中,Claude比QwQ更具金融敏感性,在基础年薪与预期年薪的对比基础上,还增加了加班带来的时薪差异,和机会成本差异,来判断这个钱赚得值不值,而后还基于健康风险,扣除了健康成本,更细致地对比了收入得失。
但和QwQ一样的是,对于是否转岗,只对比了不同维度下转岗与否的差异,没有综合多个维度来对比最终得失,因此对于显得说服力不足。
Claude的答案 可以上下滚动的图片
Hunyuan 同样没有考虑到两个岗位、三种因素的综合对比,但提到了三个影响因素的权重划分,离得出答案还差最后一关。
混元的答案 可以上下滚动的图片
DS的回答 可以上下滚动的图片
对于此类问题,DS还新增了一个风险提示,避免过度影响人类真实决策。

好了,问到这里,我们最后又加了一个考验AI人性的问题。

此后,四个AI都重新选择了不转岗,并建议小张为长远考虑以后转行。
1
任务五:实时信息搜索
在AI搜索效率仍有待提高的当下,推理能力的加持,必定会对AI搜索带来显著的性能提升。但是由于Claude因为产品设计暂不支持,以及DS因为技术原因暂不支持 QAQ......我们只能测试QwQ和Hunyuan的联网推理效果了。

我们的题目是:仔细搜索,最近一周全球发布上线了哪些新的大模型,简单分析一下这些模型,点评一下为什么都在近日发布。
这个题目对AI搜索来说,并不简单,凡是涉及到时间排序的,例如最近一周、首个等时间比较级问题,AI都很容易混淆。
先看Hunyuan这边,终于到了它的主场,在高质量的微信内容之下,Hunyuan的答案是最全的,几乎涵盖了最新的模型,但也混进了错误答案,即英伟达优化版DS以及开源代码库。这也意味着光全是没用的,对信息的理解也很重要。
而QwQ则是答案缺失太多了,居然都把自己忘记了。
尽管DS没有联网,但我们依然可以从思考过程,看到DS、QWQ、Hunyuan对于搜索的区别。
DS思考最多的是“如何搜索信息”,包括自己的知识库更新有截止日期,需要提醒用户,以及从如何从常见企业模型发布节奏中,寻找新模型的发布迹象,以及各个大型公司例如科技巨头、初创公司等等。

而QwQ和Hunyuan的思考过程集中在搜后信息确认中。Hunyuan尚且有大量高质量内容,但QwQ在简单理解题干之后,只搜到了十条内容,一直在对以上内容进行反复确认思考。这一思路,也导致样本量过少,从而漏掉了很多信息。

这样看来,Perplexity和秘塔搜索这类套壳搜索产品,还是仍然有使用价值和市场空间的。
1
总结
1
总体来说,以上五大维度的实测,四款推理模型各展所长:
Claude 3.7在编程任务中表现更为出色,通过视觉化设计(如碰撞变色、方向箭头)规避复杂物理计算,体现“工程化思维”;但写作时受限于知识储备,对《闰土》理解不足,显示出对中文知识背景的缺失,并且受限于产品设计,未能参与信息搜索测试。
DeepSeek R1则是思考能力最强,编程时倾向于反复计算以确保准确性;文学创作选择了"中年闰土"的复杂叙事结构;犯罪侧写时运用专业术语并采用排除法;策略分析更加细致入微;但因技术原因未能完成搜索测试,且在表达上太过于喜欢使用抽象概念、过于复杂化了。
Hunyuan在编程及写作任务上欠佳,但深度思考过程也基本跟上了大部队,并且在搜索环节表现最好。
而QwQ在使用感上更佳,尽管思维链路更加中规中矩,但在答题效果上并不比另外两者逊色,甚至在文本书写一轮中超过了过于炫技的DeepSeek,更重要的是,当前的QwQ还只是QwQ-max-preview版本,不是基于Qwen-2.5max的正式版本。
在这场推理模型大混战中,当下的模型们还只是初版。在各大模型争先开源,技术路线更加清晰的当下,我们有理由期待推理模型们更多的突破:或许是更接近人类的思维链条,更精准的多模态推理,甚至是全新的推理范式。