ripro优化（rvo优化）

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

本论文作者主要包括澳大利亚科学院院士、欧洲科学院外籍院士、IEEE Fellow陶大程，现任南洋理工大学杰出教授；新加坡工程院院士、IEEE Fellow文勇刚，现为南洋理工大学计算机科学与工程学院校长讲席教授，同时担任IEEE Transactions on Multimedia主编；张森，曾在悉尼大学从事博士后研究工作，现任TikTok机器学习工程师；詹忆冰，京东探索研究院算法科学家。本文的通讯作者是武汉大学计算机学院教授、博士生导师、国家特聘青年专家罗勇。第一作者为张子屹，目前在武汉大学计算机学院攻读博士二年级，研究方向为强化学习、扩散模型和大模型对齐。

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。

强化学习技术能够显著提升模型解决复杂问题的能力，尤其是在 o1 所采用的细粒度奖励机制的加持下。这种奖励机制为模型的每一步推理提供的反馈，而不仅是依赖最终答案的正确性来评估模型的表现。通过精细化的控制，使模型能够不断优化其推理路径，有效应对复杂任务中的长程依赖问题，确保模型在推理过程中保持逻辑一致性。

前不久，来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在ICML 2024上发表了一项 “扩散模型对齐” 方向的研究，所提出的名为TDPO-R 的强化学习与 o1 不谋而合地也采用了细粒度奖励机制。

论文链接：https://qyrsw.com/forum?id=v2o9rRJcEv
代码链接：https://dztwf.com/ZiyiZhang27/tdpo

TDPO-R 在强化学习算法中引入了时间差分奖励机制，对文生图扩散模型的每一步生成过程提供细粒度的反馈，从而有效缓解了在扩散模型对齐时常见的奖励过优化问题。这项研究证实了细粒度奖励机制在扩散模型对齐中的关键性，而 o1 的最新技术同样揭示了这一机制在大模型领域中的广泛应用前景，有望推动生成模型在多样化、复杂任务中的持续发展与优化。

扩散模型（Diffusion Model）作为一种先进的生成式模型，通过学习并模拟自然界中的扩散过程来合成新数据，尤其在生成高质量逼真图像方面相较于其他模型架构具有显著优势。因此，尽管近年来也有基于 GPT 等其它架构的优秀图像、视频生成模型不断涌现，基于扩散模型的架构依然是当前大多数图像、视频生成任务的主流选择。

近期，为了确保生成的图像能够符合下游任务目标以及用户偏好，许多研究者开始探索如何对预训练扩散模型进行奖励或偏好驱动的微调训练 —— 这就是所谓的扩散模型对齐（Diffusion Model Alignment）。目前，最流行的对齐方法之一便是源于大语言模型领域的一项常用技术 —— 基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF），即以强化学习方式依据人类反馈来不断地对已有的预训练模型参数进行迭代优化。

另外，也有其它一些不涉及强化学习的对齐方法，但它们大多也都需要以特定奖励函数作为优化目标，即将所对齐的下游任务目标（如图像美学质量、文图一致性等）构建为一个奖励函数 / 模型，并以最大化该奖励函数为目标对扩散模型进行迭代优化。还有一些方法，比如直接偏好优化（Direct Preference Optimization，DPO），虽然不显式地使用奖励函数来对齐模型，但其所采用的训练数据本身往往也隐含了某种奖励标准，间接引导模型朝着某种期望的目标优化。

扩散模型对齐中的奖励过优化

由于受奖励目标驱动，这些扩散模型对齐方法常常面临一个核心挑战 —— 奖励过优化（Reward Overoptimization），即经过微调后的模型可能会过度偏向于某一奖励目标，导致生成的图像丧失个性化和多样性、视觉保真度降低，最终偏离人类真实的审美偏好。如上图所示，当我们使用美学分数（Aesthetic Score）奖励模型，对 Stable Diffusion v1.4 模型进行对齐微调时，“奖励过优化” 这一现象在生成图像上肉眼可见为：图像风格趋于统一、与文本提示词的匹配度下降。

如何更加通俗地理解奖励过优化问题？想象你是一位学生，目标是通过考试拿到高分。你的老师设计了一套严格的评分标准（就像是奖励模型），目的是测试你的知识深度和理解能力。这套标准非常全面，涵盖了大量的知识点和难题，理论上应该能够准确衡量你的学习水平。

然而，你发现了一些 “捷径”：考试中虽然有很多问题，但也有着某些 “答题套路”，比如背诵标准答案，或者用某些关键词和答题模板。于是你并不真正花时间理解知识，而是把大量时间用在研究考试技巧上，专注于如何根据评分标准去 “迎合” 考试。结果，你每次考试都能拿到高分（就像模型获得了高奖励），但实际上你对知识的理解很肤浅。老师看到你的分数，误以为你学得非常好，但你自己知道，虽然分数高了，但你并没有真正掌握知识，甚至可能过于执着答题模板而错误地理解了一些问题，换另一位老师出题的话便可能原形毕露。

如何对奖励过优化问题进行定量分析？TDPO-R 算法的研究者发现，当扩散模型过度优化某一特定奖励函数时，其在域外奖励函数上的泛化能力随之下降。这种现象可以通过定量分析表现为：在以某一奖励函数为优化目标时，采用其他域外奖励函数（即不同于优化目标的奖励标准）对生成样本进行评分，会发现随着目标奖励逐渐上升，域外奖励评分的增长速度明显放缓，甚至出现域外评分逐渐下降的情况。这表明，模型在一个特定奖励函数上取得高分时，可能会以牺牲其在其他任务上的表现为代价，最终导致生成质量的不平衡。因此，研究者采用了这种跨奖励泛化度量，来定量地对比不同算法的奖励过优化程度。

研究者进一步指出，相较于基于监督学习的方法，基于强化学习的扩散模型对奖励过优化问题表现出更高的抗性。这是因为强化学习能够根据生成过程中的反馈信号不断调整策略，避免模型在单一目标上过度拟合。然而，这种抗性并非完全免疫。强化学习的这种优势往往是以牺牲样本效率为代价，即需要更多的样本和训练时间来达到较为平衡的效果。因此，在设计新的扩散模型对齐方法时，必须在提高样本效率与缓解奖励过优化之间做出权衡。

受到深度强化学习理论的启发，研究者首先从扩散模型对齐中的归纳偏置角度出发，分析了加重奖励过优化的潜在因素。归纳偏置（Inductive Bias）指的是机器学习算法在从有限的训练数据中学习时，基于特定假设提炼出的一般性模式。在深度强化学习的背景下，算法所采用的归纳偏置与其解决任务的契合程度，直接影响模型的泛化能力。简单来说，如果模型的偏置过于集中在某个特定目标上，就容易在泛化到新任务时出现问题。

然而，现有的扩散模型对齐方法往往过度依赖稀疏奖励 —— 也就是只根据最终生成图像的质量进行优化。这种做法隐含着一种假设，即最终图像的质量是最重要的评估标准，忽略了生成过程中的中间步骤（即每一步的去噪图像）。模型只在最后一步表现良好时被奖励，导致训练过程中没有充分利用多步去噪过程中的中间信息，而这部分信息恰恰包含了对生成过程的更细粒度反馈。因此，这种忽略中间步骤的做法，实际上引入了一种错位的归纳偏置 —— 即模型在训练时过于注重终极输出的奖励，而忽视了去噪过程中可能帮助模型提高质量的阶段性信号。这种偏置错位便是加重奖励过优化的潜在因素之一。

为了更好理解这种偏置错位，可以结合之前老师与学生的比喻：想象你是一名学生，你的老师只根据期末考试的成绩来评价你整个学期的表现（类似于稀疏奖励）。这种情况下，学生的学习过程（就像扩散模型中的中间去噪过程）没有被重视或衡量，学生很容易找到捷径（如通过背题库而非理解知识）来获得高分。这就类似于模型在训练中通过某种捷径，在最后生成的图像中获得高分，而忽视了生成过程中的细节和图像质量的演变。

然而，如果老师在整个学期中对你的每一次小测验、作业、甚至课堂表现都进行细粒度的评分和反馈（相当于细粒度奖励），那么你在每一步的学习过程中都会受到监控和指导。你无法依靠最后的考试来蒙混过关，必须在每个阶段都真正掌握知识。这与扩散模型对齐时类似，细粒度奖励机制能够让模型在每个生成步骤中都得到反馈，避免模型通过过度优化某一单一目标（如最终图像质量）来走捷径，确保生成过程中的每一步都保持质量和一致性。

到此这篇ripro优化（rvo优化）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： 2258xt怎么样（2258xt性能）

下一篇： 2259xt性能（2258xt 2t）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/hd-xnyh/12609.html

相关文章：