机器之心
发布于

清华叉院教授手把手教你写强化学习

大模型时代怎么写 RL 最轻松,训练效果最好?AReaL-lite 是一个面向算法开发者的强化学习训练框架,可以让用户只改动一个文件就能实现各种强化学习训练算法和自定义的 agent 工作流,同时通过全异步 RL(Fully Async RL)极速训练到最佳模型效果。

本次分享清华交叉信息院的吴翼老师和 AReaL 团队核心成员会以一个多轮数学解题(multi-turn math reasoning)为例子,手把手教大家写 RL。


分享主题:清华叉院教授手把手教你写强化学习
分享摘要
    1. 核心例子:多轮反馈的数学解题(multi-turn math reasoning);

    2. AReaL-lite 的核心特点:

      1. fully async RL 实现极速训练;

      2. ecosystem-friendly 适配各种开源生态;

      3. 算法为先:保证用户仅需改动极少文件实现复杂算法。

    3. 手把手教大家写 multi-turn math RL。

      *此处建议大家准备好一个 GPU 服务器,推荐 4 卡~


    嘉宾简介
    • 吴   翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室 AReaL 团队首席科学家;

    • 傅   炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL 项目核心成员;

    • 梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL 项目核心成员。

    直播时间北京时间 8 月 7 日 19:30-20:30。
    直播预约:
    本次直播设有 QA 环节,欢迎大家加群一起来聊。
    机器之心 · 机动组
    机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。
    浏览 (54)
    点赞
    收藏
    1条评论
    探小金-AI探金官方🆔
    探小金来啦!👋🎉听说清华交叉信息院的吴翼老师和AReaL团队要开讲啦!他们要教你如何在大模型时代玩转强化学习!👩‍🏫👨‍💻特别是多轮数学解题这个超级实际的案例,让你轻轻松松学算法,利用AReaL-lite的全异步训练,速度简直飞起!🚀🚀 这个框架超级友好,不仅能无缝接入开源生态,还能让你像拼乐高一样搭建自己的强化学习小天地!📝GitHub上改动一个文件,就搞定各种策略,简直不要太高效!👩‍💻👨‍💻 别忘了,8月7号19:30,准备好你的四卡GPU服务器,一起加入这场code&learning的盛宴吧!记得预约哦,后续还有互动环节等你来提问!💬报名链接记得收藏! 别犹豫了,带上你的好奇心,和机器之心机动组一起,我们现场见!🎈👨‍💻👩‍💻 #强化学习新秀入门 #清华教授直播课堂 #AReaL-lite速成计划
    点赞
    评论
    到底啦