
解决“只是知道但不知道训练”和“只是训练但不学习”的困难问题,认为您愿意参加高水平的数学竞赛。如果您只朗诵了过去几年以前问题的通常答案,而又永远不会自己解决问题,那么一旦遇到了一种新的问题,它可能是无助的。相反,如果您在闭门造车上工作,依靠您的重复试验和错误,而从不参考解决教师和专家的问题的经验,那么您的发展将非常慢。在AI模型中,这就像两个长期过度的过度训练:“模仿研究”仅关心复制和表现,但缺乏自我练习,而“强化”是盲目的Giexplore自我,而无需从现有经验中学习。 “只是知道但不知道训练”和“仅培训但不学习”的两种策略有自己的缺点:前者经常学习后者可以勤奋地探索但无效。因此,是否有一种方法可以两全其美,以便可以从专家的经验中学到模型并保持独立的探索?最近,上海AI实验室与西湖大学,南京大学和香港中国大学的研究团队结合了研究小组,提出了一种新的增强范式:路飞:(根据政策非政策指导下的推理研究)。论文链接:https://arxiv.org/abs/2504.14945代码存储库:https://github.com/elliottyan/luffyluffy是主要概念:在培训过程中:在培训过程中,让模型在Master的帮助下进行练习(无需谨慎),并在线进行练习(并持续研究),从而实现您的练习,从而实现您的范围,从而实现了您的经验,并将其付诸实验,”表明路飞的平均+7.0拟合物,并在分布郊区表现出显着的慷慨能力在现有的零RL程序中,绩效的显着改善超过7.0分。首先,关于社区拥抱面孔的每日论文列表,并与当局学术论坛Alphaxiv进行了激烈的讨论。研究模仿和加强研究之间的困境。当前具有大型模型的主要推理方法可以分为两类:研究(SFT):该模型指的是解决专家发现的问题的轨迹,这相当于“阅读答案和复制问题”。尽管它很快就意识到了众所周知的方法,但很难适应新问题,而没有自主权。图2。模仿研究(SFT):模仿由专业模型产生的高质量推理轨迹。强化研究(零-RL):该模型通过连续反复试验获得奖励反馈,并优化了该方法的策略,如果起始POIN,则具有多种能力T很弱,很容易陷入局部可靠性,很难打破上限。图3。强化研究:与环境(例如验证者)的交互式反馈,并继续优化您自己的技术。这两种方法具有自己的优势,也有自己的缺点。路飞建议打破这种二进制对立,包括两者的好处,并解决了“深入研究和广泛研究”的主要问题。路飞的直觉和机制:专家演示,模型探索路飞的关键思想是:在强化学习过程中介绍“偏僻的指导”,也就是说,使用来自强大模型或专家的推理轨迹作为指导,这与当前的主流学习派纳的策略相同,以使用模型的策略来启用当前的主流策略,从而使用单个模型自身的策略来进行单位化的策略。就像一个继续独立完成练习的学生ILE使用老师提供的经典示例。在Luffy中,该模型是通过混合两种类型的轨迹来训练的:一种是在当前方法(On Policy)下形成的在线推理过程,另一个是从Strong借来的离线演示(非政策)。将两种类型的轨迹一起用于接近该方法,从而使模型可以“学习和执行”。图4。Luffy:学习推理的框架,在培训时学习。路飞在强化研究的轮廓中引入了推理的外部质量轨迹,并通过“塑造”机制来尝试自己尝试(policy)和专业演示的好处。当模型自己的推理失败时,它将从专家演示中学习基本步骤。当它表现良好时,它仍然是独立的探索。在保持勘探能力的同时,该机制指导该模型专注于低燃烧但至关重要的动作,从而实现持续的Evolu推理能力的慷慨和慷慨。技术亮点:塑造Luffy的混合方法和策略的实施取决于GRPO算法框架,并围绕两个主要机制旋转:1。混合策略培训:同时使用在线轨迹和离线示范来指导模型来指导模型移动近距离的高价值动作,同时维持一个自身的有效尝试。 2。功能方法(图6):通过非重量加权机制加强学习主要步骤,防止模型转换转换,减少策略熵并保持持续的探索。图5显示了塑造梯度更新及其对模型探索的影响的方法的非线性重量。图5。路飞撞击策略的纸张和影响。左图:训练过程中熵策略的比较。中国人物:根据在DI下决定的可能性,体重减轻了方法。图右:根据决策的可能性将情况与权重差异进行比较。路飞将渐变响应提高到稀有(低概率)但通过非重量重量的重要行为,从而指导模型以发现来自政策示范中更好的理性模式。图6。塑形函数F()的方法可以被视为在常规障碍下进行采样的重要性,从而鼓励模型专注于低政策但潜在的重要行为决策。实验结果:立即学习和练习,从示例中找出并将其应用于其他人。 7.运动动态分析:在训练的早期阶段,路飞模型逐渐适应外部指导,而推理路径的长度逐渐接近方法的方法,显示出有效的模仿和调整。同时,在整个培训过程中,始终保留是一个高度战略性的熵并显示了继续探索的能力。相比之下,传统的上政策RL的熵在早期阶段迅速转化,并降低了勘探能力。在数学推理的六个公共基准中,与现有的零RL方法相比,路飞的平均提高+7.0分,并且在许多放电测试集中也取得了领先的性能。图8。路飞的表现在六个困难的数学推理基准中。图9。非处置测试集绩效(ARC-C,GPQ-Diamond和MMLU-Pro)。在其他模型(例如与教学一致的教学模型)中,路飞(Luffy)也显示出重大的好处:图表10。Luffy在QWEN2.5-MATH-1.5B中的表现。图11。不仅如此,在“路径理解的长度”方面,路飞是SFT中的Betterysa。同样的精度,路飞可以通过较短的推理过程实现正确的答案,并减少不当扩展。而当t在试验期间,皇帝升高以增加勘探的强度,路飞的性能保持稳定,而SFT则显示出显着下降。图12。推理长度的比较。图13。试验期间的勘探技巧比较。展望:路飞的一般推理的新起点是,Luffy提出了一种良好,稳定和一般的推理培训方法,考虑学习和技巧,以便该模型可以真正掌握推理策略的内部逻辑。将来,情节可以扩展到AI活动,例如代码,科学和自动规划等,需要复杂的推理,并开发更广泛和自主的代理。该项目目前是Github的开放资源。欢迎有兴趣的学生理解,繁殖或扩展。作者简介:西湖大学教师Zhang Yue的三年级学生Yan Jianhao。研究的主要兴趣是培训后技术基于大型模型,包括加固,在线研究和模型编辑的遗物。在学习医生头衔之前,Yan Jianhao曾在微信AI担任研究员,并赢得了WMT机器翻译竞赛。 Li Yafu博士目前是上海人工实验室的研究人员。他的研究指示涵盖了Mod的出色推理语言ELO,可信赖的人工智能和机器翻译。他曾在智格大学和西湖大学学习医生学位,后来获得了人工智能的硕士学位,并获得了爱丁堡大学和武汉大学的电子信息工程学士学位。 Li Yafu在ACL,EMNLP,ICLR等领先会议上发表了许多研究结果。他还担任ACL领域的主席和几个国际顶级会议和期刊的审稿人。在他的博士学位上,他获得了一位国家学者,被选为腾讯犀牛鸟精英塔尔(Tal)ENT计划并获得了杰出的学者。