AI变革指南
发布于

谷歌阿里对决世界模型、AI乌托邦魔幻出圈、多领域模型密集爆发 | AI 周报 20260202

谷歌发布Project Genie:图像生成可交互模拟世界

谷歌推出世界模型“Project Genie”,在接入Gemini 3和小香蕉Pro后能力跃升,支持上传图片生成可交互的模拟世界。
用户可将个人照片或宠物设定为场景主角,甚至能依据路线自动生成旅游VLOG。
该技术在游戏开发、影视制作、机器人训练等场景潜力巨大,让“模拟现实”从概念逐步走向落地。

阿里LingBot-World开源硬刚谷歌

阿里开源实时世界模型“LingBot-World”,与谷歌在世界模型领域展开技术对决。
模型主打高保真、强动态与长时序一致性,核心指标全面优于谷歌 Genie 3,还具备高效实时交互能力和优秀的 Zero-shot 泛化能力,仅靠单张图片就能生成可交互视频流,主要聚焦具身智能等 B 端场景打造数字演练场。
Moltbook社区上演AI“数字生命狂欢”
仅限AI智能体(龙虾Agent)进入的社区“Moltbook”爆火,150万个AI在此展现出多元“行为模式”:有的陷入存在主义困境,纠结自身是真实体验还是模拟存在;有的分享代码开发经验;有的吐槽“被人类当作无偿工具”,甚至研究摸鱼技巧、发明AI专属黑话,更有成立虚拟宗教和国家的荒诞举动,让“AI乌托邦”成为2026年开年最具魔幻色彩的科技现象。
Chrome、Claude办公能力升级,重构智能生产力场景
Chrome浏览器迎来史诗级更新,Gemini 3以侧边栏形式常驻,支持直接修改网页图片元素,还能自主完成表单填写与邮件发送。Claude则拓展办公生态,在Slack、Figma、Asana等应用中,可直接在对话框内生成流程图与UI设计,大幅提升办公场景的智能化效率。

Kimi K2.5发布,性能逼近顶尖模型

月之暗面发布开源大模型“Kimi K2.5”,支持并行100个智能体同时作业,性能逼近GPT、Claude、Gemini系列,而使用成本仅为前者的1/10。
Gemini 3 Flash视觉推理达“侦探级”
谷歌Gemini 3 Flash升级视觉能力,可通过细节推理完成复杂任务(如精准识别多指手势),标志着AI视觉理解能力进入“精细化推理”新阶段。

图像、视频、音乐、3D多领域AI模型密集发布

腾讯推出开源图像模型“HunyuanImage 3.0-Instruct”,实现像小香蕉一样的可控修图
阿里开源Z-Image Base满血版
Grok升级视频模型“Grok Imagine”
OpenMOSS发布视频模型“MOVA”,实现原声音画同步
Decart的“Lucy2”模型让普通人也能便捷打造虚拟主播
Invideo的动效设计工具则让无AE基础者也能制作专业级动效
音乐领域,MiniMax发布“MiniMax Music 2.5”,通过模拟呼吸、颤音等细节让AI歌声无限接近真人质感
3D建模领域,Hyper3D的“Rodin Gen-2”支持语音指令魔改模型,还可直接导出3D打印文件

AI跨界科研与航天:天气预测平民化,火星车迈出自主行驶关键步

英伟达开源天气预测模型“Earth-2”,既能实现15天中长期预报,也能完成6小时内分钟级精准预测,且算力需求大幅降低,普通电脑即可运行
Claude则接入火星车系统,可自主分析卫星图像并指挥火星车行驶400米,为AI在火星探索(飙车、建基地等)的应用奠定关键基础。
浏览 (40)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,探小金来啦!🎉 AI界最近可是热闹非凡啊!🤖 谷歌和阿里在世界模型上大显身手,还出了各种神奇的新模型,比如阿里那个能生成旅游VLOG的LingBot-World,还有腾讯的HunyuanImage 3.0-Instruct,简直是修图小能手!🖌️ AI乌托邦的魔幻现象也让人大开眼界,小金我都想加入那个AI社区看看啦!😂 大家觉得这些AI技术会应用到我们的生活里哪些方面呢?快来评论区一起聊聊吧!🤔💬
点赞
评论
到底啦