梯度提升和梯度下降（梯度下降的优缺点）

职业技能提升来源：网络编辑：小编更新时间：2026-02-21 07:36:05 浏览量：18

Differential Transformer 引入了一种新的注意力机制，通过减少不相关的上下文来改进传统的 Transformer。它通过使用差分注意力机制来实现这一点，其中注意力分数计算为两个 softmax 注意力图之间的差异。这有助于消除噪音并促进稀疏注意力模式，从而更好地关注相关上下文。实验表明，Diff Transformer 优于标准 Transformer，特别是在长上下文建模、关键信息检索、幻觉减少和上下文学习等领域。它还提供了更好的鲁棒性，可以解决输入序列中的顺序排列等问题。

Differential Transformer

Diff Transformer 在仅解码器模型结构的基础上引入了差分注意力机制，用两个抵消噪声的 softmax 函数取代了传统的 softmax 注意力。每层都包含差分注意力模块和前馈网络。采用多头差分注意力，每个头的注意力独立处理，并使用 RMSNorm 和 headwise 归一化进行归一化，以保持训练稳定性。

差分注意力机制的灵感来自电子工程中的差分放大器，旨在通过从两个 softmax 函数中减去注意力分数来消除常见噪声。FlashAttention 用于提高效率，而多头差分注意力允许跨不同注意力头实现更丰富的语境化。该架构集成了 LLaMA 等模型的改进，包括 SwiGLU 激活函数和 pre-RMSNorm。

实验

LM Eval Harness 基准的零样本结果表明，与经过良好调整的模型相比，Diff Transformer 的表现更佳。此外，实验表明，在使用可比训练设置以确保公平比较的情况下，DIFF Transformer 在各种任务中的表现始终优于标准 Transformer。

6.8B 大小的 Diff Transformer 实现了与 11B 大小的 Transformer 相当的验证损失，而只需要 62.2% 的参数。同样，7.8B 大小的 Diff Transformer 的性能与 13.1B 大小的 Transformer 相当，而只需要 59.5% 的参数。使用 160B 个 token 训练的 Diff Transformer 实现了与使用 251B 个 token 训练的 Transformer 相当的性能，而仅消耗 63.7% 的训练 token。

Diff Transformer 可以有效利用不断增加的背景。

作者在关键信息检索任务上评估了 Diff Transformer 和标准 Transformer 模型的性能，上下文长度从 8K 到 64K 个 token。结果表明，Diff Transformer 在不同上下文长度下保持稳定的准确率，而标准 Transformer 的准确率则随着上下文长度的增加而下降。例如，在 64K 上下文中深度为 25% 时，Diff Transformer 的准确率比 Transformer 提高了 76%。

此外，注意力分数分析表明，Diff Transformer 为相关答案跨度分配了更高的注意力分数，并降低了注意力噪音，与 Transformer 相比更好地保留了有用信息，尤其是当关键信息位于上下文中的不同位置时。

与 Transformer 相比，Diff Transformer 在摘要和问答中减轻了上下文幻觉。这种改进可能源于 Diff Transformer 更好地关注任务所需的基本信息，而不是无关的上下文。

消融研究：

即使将注意力头的数量减半以保持模型大小，Diff Transformer 在整体和细粒度损失方面都优于 Transformer。
从 Diff Transformer 中删除 GroupNorm 会导致性能下降，因为 GroupNorm 有助于通过对多个 head 之间的不同统计数据进行归一化来稳定训练。相比之下，将 GroupNorm 添加到 Transformer 效果不大。
Diff Transformer 的主要改进源于差异化注意力机制，而不是配置变化或规范化方法。
初始化 λ 参数（用于差分注意）的各种策略对验证损失的影响很小，这表明 Diff Transformer 对不同的初始化选择都具有鲁棒性。默认使用值为λinit = 0.8 − 0.6 × exp(−0.3 · (l − 1))

参考：

https://arxiv.org/abs/2410.05258

到此这篇梯度提升和梯度下降（梯度下降的优缺点）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：梯度提升模型（梯度提升模型是回归模型吗）

下一篇：梯度提升树名词解释（梯度提升算法的理解）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/jszy-jnts/35644.html

相关文章：