欢迎光临澳门吉尼斯人游戏平台!

新闻中心

主页 > 新闻中心 > 行业动态 >

第一的!流匹配模型引入了GRPO,Geneval几乎是完整

2025-05-16 08:39

这篇文章由香港中国大学和库阿胡苏·凯林(Kuaishou Keling)和其他团队完成。第一个是Liu Jie,是香港大学MMLAB学习的医生。他的研究方向是对加强和开发模型的研究,他获得了ACL杰出纸质奖。由于扎实的理论基础和在高质量图像的开发中的出色表现,流匹配模型已成为对图像生成(稳定扩散,通量)和视频生成(Keling,Wanx,Hunyuan)中最先进模型的一种训练方式。但是,这些最先进的模型在处理包含许多事物,特征和关系以及文本渲染活动的复杂情况方面仍然存在很大困难。同时,由于出色的探索机制和反馈,对固定增强的研究已在语言模型领域取得了重大发展,但其适用与图像的生成阳离子处于其初始阶段。结果,香港中国MMLAB,Kuaishou Keling,Tsinghua University和其他团队共同提出了Flow-Grpos,这是第一个在流程模型中引入加强研究的研究。为了支持流程,基因测试测试中SD3.5培养基的准确性从63%增加到95%,组合的绘画能力超过了GPT4O,表明仍然有许多改善流匹配模型的房间。成功的Flow-GRPO技能为未来的RL使用了一个有希望的新范式,以进一步解锁和增强不同流匹配模型的潜力(包括Hinnot限于图像,视频,3D等),以控制,组成性和推理功能。纸张标题:Flow-GRPO:在线RL纸张链接的培训匹配模型:https://www.arxiv.org/pdf/2505.05470代码地址:https://github.com/yifan123/flow_grpo型号地址:还将提供一个Gradio在线演示和网页,其中包含大量生成案例,以促进研究培训期间的图像变化,从而帮助读者更好地了解RL对流程模型的极大改进。一。该框架的基本思想和概述流程核心核心在于两种主要方法,旨在克服在线RL的性质与匹配流量和匹配流量和提高训练效率的模型之间的矛盾:ODE-SDE的等效转换:流动匹配模型基本上依赖于方程(ode)的确定性变体(ode)的确定性变化。为了提高研究勘探所需的随机性,具有-set的人采用了转化随机微分方程(SDE)的ode机制。理论转换SDE可以保证这种机制在所有步骤中都可以匹配原始ODE模型的边缘分布,从而为RL提供了有效的探索空间而无需更改K模型的特征。否认“减轻负担”以提高效率的步骤数:在RL培训期间,勇敢地减少生成步骤(例如,从40个步骤减少到10个步骤),从而可以加速数据提取;在最终的理解中,仍然使用完整的步骤来确保高质量的产出。在大大提高在线RL培训效率的同时,请确保性能不会降低。照片1 Flow-GRPO框架II。在Sdegrpo中的ODE中间是对采样的随机过程的依赖,以产生不同的轨迹批次,以估计该方法的优势和探索。但是,对于流模型,确定性抽样过程不符合GRPO要求。为了解决此限制,作者将确定性流程更改为与原始模型边际概率的密度函数相对应的等效SDE,作者提出详细证明了纸的附录A。当原始流程模型与以下公式一致时:转换为SDE后,用-set获得的采样的最终形式如下:此后,RL策略的探索性质可以通过控制噪声水平的参数来正确控制。三。扣除以生产高质量图像的声明,流式传输模型通常需要大量的步骤,这使得收集培训数据以使在线加强更昂贵。作者发现,对于在线增强研究培训,当样本生成时,不需要更大的时间,并且通过在推理时维护原始的剥夺步骤来获得高质量的样本。作者在PA perdodexercise期间将时间设定为10,而推理时的步骤仍处于40的原始默认设置。在试验期间的启发期和完整的匹配”,可以在不牺牲最终表现的情况下进行快速训练。四个。流量GRPO的核心实验影响在许多T2I生成活动中表现良好:产生复杂组合的能力得到了极大的提高:在Geneval Benchmark上,SD3.5毫米的准确性,SD3.5毫米的准确性增加了63%,从63%到95%,并且对对象进行了对象,并且对对象进行了对象,并且在对象中的影响以及对对象的影响,并且在对象中,对对象进行了对象。超过GPT-4O!奖励黑客显着降低:图像质量和流程图像变化,同时改善性能通常不受性别的影响,从而有效地减轻了奖励黑客的问题。利马。总结和视角是第一种识别流程模型流量模型的在线增强研究的算法,流程GRPO通过将流动流动流动流动的确定性机理转换为随机方程(SDE),在流动模型的流程模型中实现了出色的在线增强研究,这是减少减少的。实验结果表明,即使是最先进的匹配流程模型,当前当前的匹配流程都有很大的空间来改善强化研究后的性能。与基线模型相比,Flow-GRPO在诸如组合生成,文本渲染和人类偏好等活动中取得了重大改进。流程 - GRPO的意义不仅反映在指标的领导中,而且反映了f的表现可靠的途径继续提高使用在线增强研究的形成模型的流量的性能。它的成功技能提供了一种有希望的新范式,以进一步释放具有控制,组成和自我策划能力的能力的流动模型的潜力,尤其是在多模式一代的活动中,例如图像,视频和3D。

相关推荐

  • 新闻中心

  • 联系我们

    +86-765-4321
    [email protected]
    +86-123-4567
    天朝天堂路99号