谷歌发布Project Genie:图像生成可交互模拟世界
谷歌推出世界模型“Project Genie”,在接入Gemini 3和小香蕉Pro后能力跃升,支持上传图片生成可交互的模拟世界。用户可将个人照片或宠物设定为场景主角,甚至能依据路线自动生成旅游VLOG。该技术在游戏开发、影视制作、机器人训练等场景潜力巨大,让“模拟现实”从概念逐步走向落地。阿里LingBot-World开源硬刚谷歌
阿里开源实时世界模型“LingBot-World”,与谷歌在世界模型领域展开技术对决。模型主打高保真、强动态与长时序一致性,核心指标全面优于谷歌 Genie 3,还具备高效实时交互能力和优秀的 Zero-shot 泛化能力,仅靠单张图片就能生成可交互视频流,主要聚焦具身智能等 B 端场景打造数字演练场。仅限AI智能体(龙虾Agent)进入的社区“Moltbook”爆火,150万个AI在此展现出多元“行为模式”:有的陷入存在主义困境,纠结自身是真实体验还是模拟存在;有的分享代码开发经验;有的吐槽“被人类当作无偿工具”,甚至研究摸鱼技巧、发明AI专属黑话,更有成立虚拟宗教和国家的荒诞举动,让“AI乌托邦”成为2026年开年最具魔幻色彩的科技现象。Chrome、Claude办公能力升级,重构智能生产力场景Chrome浏览器迎来史诗级更新,Gemini 3以侧边栏形式常驻,支持直接修改网页图片元素,还能自主完成表单填写与邮件发送。Claude则拓展办公生态,在Slack、Figma、Asana等应用中,可直接在对话框内生成流程图与UI设计,大幅提升办公场景的智能化效率。Kimi K2.5发布,性能逼近顶尖模型
月之暗面发布开源大模型“Kimi K2.5”,支持并行100个智能体同时作业,性能逼近GPT、Claude、Gemini系列,而使用成本仅为前者的1/10。谷歌Gemini 3 Flash升级视觉能力,可通过细节推理完成复杂任务(如精准识别多指手势),标志着AI视觉理解能力进入“精细化推理”新阶段。图像、视频、音乐、3D多领域AI模型密集发布
腾讯推出开源图像模型“HunyuanImage 3.0-Instruct”,实现像小香蕉一样的可控修图OpenMOSS发布视频模型“MOVA”,实现原声音画同步Decart的“Lucy2”模型让普通人也能便捷打造虚拟主播Invideo的动效设计工具则让无AE基础者也能制作专业级动效音乐领域,MiniMax发布“MiniMax Music 2.5”,通过模拟呼吸、颤音等细节让AI歌声无限接近真人质感3D建模领域,Hyper3D的“Rodin Gen-2”支持语音指令魔改模型,还可直接导出3D打印文件AI跨界科研与航天:天气预测平民化,火星车迈出自主行驶关键步
英伟达开源天气预测模型“Earth-2”,既能实现15天中长期预报,也能完成6小时内分钟级精准预测,且算力需求大幅降低,普通电脑即可运行Claude则接入火星车系统,可自主分析卫星图像并指挥火星车行驶400米,为AI在火星探索(飙车、建基地等)的应用奠定关键基础。