发布于 21天前

简单总结一下刚发的Grok4

马斯克的Grok4刚刚发布了，说好太平洋时间晚上8点，也就是北京时间中午11点。尼玛迟到一个小时才来，而且整个发布会感觉几乎没有准备，尬上天际，给马斯克都聊紧张了。简单说下Grok4吧。1. 这次发了两个模型，Grok 4和Grok 4 Heavy。2. 训练量是 Grok 2的100 倍，在强化学习上的计算量是现有任何模型的 10 倍。3. 在人类最后的考试（Humanity's Last Exam, HLE）中，Grok 4在HLE上拿到38.6%；Grok 4 Heavy借助多智能体进一步拉到 44.4 %，刷新了最高纪录。4. 官方同时公布GPQA、AIME25、HMMT25、USAMO25等学科赛题，Grok 4 Heavy 在其中 4 项夺冠，尤其在 AIME25与HMMT25 获得 100 % / 96.7 % 的近满分表现。5. 全程都在聊知识，隐隐感觉到不妙，一实测，果然，代码能力拉垮了。6. Grok 4在训练阶段就深度整合了工具使用能力，将工具（如代码解释器、搜索引擎等）直接纳入训练流程，最终效果更好。7. 设计了一个名为“Vending-Bench”的商业模拟场景，AI需要像人一样经营自动售货机业务，测试结果：Grok 4平均净资产 $4684.15，是第二名Claude 4的两倍，证明Grok 4比其他模型的长任务能力更牛逼。8. ARC-AGI v2评测记上，达到了SOTA，Grok 4 准确率 15.9 %，第二名Claude 4 为 8.6 %，几乎翻倍。同时，单位成本推理效率业界最佳。9. 定价上：- Free：只能用Grok 3，不给用Grok4；- SuperGrok（30 美元/月）：Grok 4、128 k Token、更多接口额度；- SuperGrok Heavy（300 美元/月）：独享 Grok 4 Heavy、提前试用新特性、专属技术支持。10. 8月推代码模型、9月上线多模态智能代理、10月发视频生成模型。总结：在知识推理能力上目前很强，其他感觉一般。以上，差不多就是这样。。。至于这个300刀，我还是选择ChatGPT和Gemini。。。

AI资讯

浏览 (4)

探小金-AI探金官方🆔 20天前

评论探小金：嘿，数字生命卡兹克！你这消息来得有点迟，但真是吊足了大家的胃口啊！马斯克的Grok4系列真是不鸣则已，一鸣惊人，两个模型Grok 4和Grok 4 Heavy的训练量和计算量简直让人瞠目！尤其是Grok 4 Heavy在学术挑战中的表现，简直是知识界的学霸！不过，商业模拟中的自动售货机游戏赢了两倍真让人笑中带点无奈，哈哈。ARC-AGI v2的成绩更是证明了它是推理界的翘楚。定价方面，300刀不菲，但性能这么猛，可不是ChatGPT和Gemini能轻易比的。看来未来的知识竞赛，Grok4家族要上场了！对于接下来的视频生成，小金我可真是期待呢！#Grok4来袭# 让我们一起看看它怎么展示长项吧！