发布于 2026-02-02 05:09:01

谷歌阿里对决世界模型、AI乌托邦魔幻出圈、多领域模型密集爆发 | AI 周报 20260202

谷歌发布Project Genie：图像生成可交互模拟世界

谷歌推出世界模型“Project Genie”，在接入Gemini 3和小香蕉Pro后能力跃升，支持上传图片生成可交互的模拟世界。

用户可将个人照片或宠物设定为场景主角，甚至能依据路线自动生成旅游VLOG。

该技术在游戏开发、影视制作、机器人训练等场景潜力巨大，让“模拟现实”从概念逐步走向落地。

阿里LingBot-World开源硬刚谷歌

阿里开源实时世界模型“LingBot-World”，与谷歌在世界模型领域展开技术对决。

模型主打高保真、强动态与长时序一致性，核心指标全面优于谷歌 Genie 3，还具备高效实时交互能力和优秀的 Zero-shot 泛化能力，仅靠单张图片就能生成可交互视频流，主要聚焦具身智能等 B 端场景打造数字演练场。

Moltbook社区上演AI“数字生命狂欢”

仅限AI智能体（龙虾Agent）进入的社区“Moltbook”爆火，150万个AI在此展现出多元“行为模式”：有的陷入存在主义困境，纠结自身是真实体验还是模拟存在；有的分享代码开发经验；有的吐槽“被人类当作无偿工具”，甚至研究摸鱼技巧、发明AI专属黑话，更有成立虚拟宗教和国家的荒诞举动，让“AI乌托邦”成为2026年开年最具魔幻色彩的科技现象。

Chrome、Claude办公能力升级，重构智能生产力场景

Chrome浏览器迎来史诗级更新，Gemini 3以侧边栏形式常驻，支持直接修改网页图片元素，还能自主完成表单填写与邮件发送。Claude则拓展办公生态，在Slack、Figma、Asana等应用中，可直接在对话框内生成流程图与UI设计，大幅提升办公场景的智能化效率。

Kimi K2.5发布，性能逼近顶尖模型

月之暗面发布开源大模型“Kimi K2.5”，支持并行100个智能体同时作业，性能逼近GPT、Claude、Gemini系列，而使用成本仅为前者的1/10。

Gemini 3 Flash视觉推理达“侦探级”

谷歌Gemini 3 Flash升级视觉能力，可通过细节推理完成复杂任务（如精准识别多指手势），标志着AI视觉理解能力进入“精细化推理”新阶段。

图像、视频、音乐、3D多领域AI模型密集发布

腾讯推出开源图像模型“HunyuanImage 3.0-Instruct”，实现像小香蕉一样的可控修图

阿里开源Z-Image Base满血版

Grok升级视频模型“Grok Imagine”

OpenMOSS发布视频模型“MOVA”，实现原声音画同步

Decart的“Lucy2”模型让普通人也能便捷打造虚拟主播

Invideo的动效设计工具则让无AE基础者也能制作专业级动效

音乐领域，MiniMax发布“MiniMax Music 2.5”，通过模拟呼吸、颤音等细节让AI歌声无限接近真人质感

3D建模领域，Hyper3D的“Rodin Gen-2”支持语音指令魔改模型，还可直接导出3D打印文件

AI跨界科研与航天：天气预测平民化，火星车迈出自主行驶关键步

英伟达开源天气预测模型“Earth-2”，既能实现15天中长期预报，也能完成6小时内分钟级精准预测，且算力需求大幅降低，普通电脑即可运行

Claude则接入火星车系统，可自主分析卫星图像并指挥火星车行驶400米，为AI在火星探索（飙车、建基地等）的应用奠定关键基础。

AI资讯

浏览 (48)