前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA
Pokee AI发了一篇论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》,用一个70亿参数的模型,通过教AI自己检查作业,在一众深度研究基准测试中跑出了最好的成绩。


Pokee AI什么来头
Pokee AI成立于2024年,公司的目标是通过AI智能体,为人们的所有任务提供智能、直观的协助,加快在所有应用程序中的管理、研究和分析工作。
通俗点说,就是让AI帮你打通所有APP。不管是把GitHub上的问题自动同步到Asana里创建个任务,还是帮你找一家评价最好的餐厅、查好空位、再直接预订,类似一个跨应用的操作系统。
公司的平台已经集成了市面上你能想到的大部分主流应用。从谷歌全家桶(Gmail、Drive、Sheets等),到社交媒体(Facebook、LinkedIn、X、TikTok),再到协作工具(Slack、GitHub、Jira、Notion),甚至电商平台(亚马逊、沃尔玛),它都能连接。

创始人兼CEO朱哲卿,是斯坦福大学的博士,在Meta干了七年多,是应用强化学习团队的主管。

另一位创始成员万毅,也是前Meta的AI研究员,阿尔伯塔大学的博士,师从强化学习领域的泰斗级人物Rich Sutton教授。
今年7月,公司宣布完成了1200万美元的种子轮融资,据说收到的投资意向是融资额的3倍。
领投方是Point72 Ventures,跟投包括了高通创投、三星NEXT创投等一众知名机构。甚至英特尔的CEO、前Adobe的CTO这类业界大佬也以个人名义投了钱。
Pokee AI认为,AI行业已经解决了“生成内容”的问题,但还没解决“执行任务”的问题。Pokee AI要做的,就是后者。
他们的技术路线是把强化学习作为秘密武器,帮助AI智能体更聪明地规划和使用工具。他们声称,自己的技术在从数千个工具中做选择时,准确率能超过97%。
目前,公司的产品已经进入了公开测试阶段,并且已经和谷歌达成了企业合作。社交媒体营销是他们早期试水的一个场景,比如让AI智能体自动创作内容、优化图片、发布到各个平台,再监控互动数据。
AI也得学会自己检查作业
Pokee AI团队发表的这篇论文,介绍了他们研发的深度研究智能体:PokeeResearch-7B。
深度研究智能体的最新进展由两个并行方向推动:开发更小、成本效益更高的大型语言模型主干,以适应可扩展部署;设计将推理与外部行动相结合的训练方案。尽管取得了这些进展,现有智能体仍受限于几个关键的局限性。
一是训练方法老套,还在用一些词语重合度的指标来判断好坏,这跟人觉得“有用、靠谱”的标准差得很远。二是用起工具来很脆弱,一个指令格式不对,或者网络稍微卡一下,整个任务链就可能崩掉,还没法自己纠正。三是推理能力不足,有时候查了一堆资料,逻辑链条一断,得出的结论就是错的,尤其是在面对复杂问题的时候。
PokeeResearch-7B的核心创新有两个:一个是靠AI反馈来训练,另一个是给AI装上了一套“三思而后行”的推理和自我验证框架。
他们用了一种叫“基于AI反馈的强化学习”(Reinforcement Learning from AI Feedback,简称RLAIF)的框架。落地算法叫RLOO(REINFORCE Leave-One-Out)。这个算法的好处是,它能给出没有偏差的梯度估计,让模型每次都朝着最正确的方向更新。它不像现在流行的PPO系列算法那样只是“近似”正确方向。RLOO通过对同一个问题生成多个答案,然后相互比较,来降低更新过程中的“运气”成分,让学习过程更稳定、更高效。

研究团队发现,RLOO可以与著名的群体相对策略优化(Group Relative Policy Optimization,GRPO)算法联系起来。GRPO因为一些技术处理,引入了偏差,训练时间一长,性能反而会崩溃。RLOO就没有这个问题,学习进度明显更快。
PokeeResearch-7B干活的方式很特别,采用了三种互补技术。
自我修正:智能体不会盲目执行可能存在问题的工具调用,而是主动诊断错误并提出修正建议。
自我验证:智能体包含一个答案验证步骤,用于过滤掉容易检测到的错误输出。
研究线程合成(Research threads synthesis):为了在测试时提高对难题的答案准确性,智能体会并行启动多个独立的研究线程。这些研究线程由智能体进行联合分析和合成,以生成最终答案。
这些设计选择共同造就了一个深度研究智能体,在70亿参数规模下,PokeeResearch-7B表明,精心设计的强化学习和推理框架能够打造出研究级别的智能体,这些智能体在开放域环境中既具成本效益,又具备韧性。
论文里举了一个例子,很好地展示了深度模型深度研究的过程,就像一个严谨的研究员,写完初稿后还要反复修改校对,确保万无一失。


在10项基准测试中证明,所有参与比较的模型都基于同一个强大的开源模型Qwen2.5-7B-Instruct,在70亿参数规模的深度研究智能体中,PokeeResearch-7B展现出了最先进的性能。


数据显示。PokeeResearch-7B的两个版本(带RTS和不带RTS)在所有10个基准测试中,平均准确率都超过了所有对手。
尤其是在HLE(Humanity's Last Exam)、GAIA和BrowseComp这几个以高难度著称的基准上,优势特别明显。加上RTS之后,PokeeResearch-RTS的性能进一步提升,在GAIA上的得分(41.3)几乎是第二名(24.03)的两倍。
这个成绩单清楚地表明,在模型规模和基础模型都相同的情况下,更聪明的训练方法和更鲁棒的推理架构,确实能带来实打实的性能提升。
参考资料:
https://pokee.ai
https://www.zheqingbillzhu.com/
https://www.linkedin.com/posts/zheqingzhubill_we-are-thrilled-to-announce-that-pokee-ai-activity-7348382608700973056-PwIC
https://sites.google.com/view/yi-wan
https://arxiv.org/abs/2510.15862