当前位置:网站首页 > 职业技能提升 > 正文

梯度提升和梯度下降(梯度下降的优缺点)






Differential Transformer 引入了一种新的注意力机制,通过减少不相关的上下文来改进传统的 Transformer。它通过使用差分注意力机制来实现这一点,其中注意力分数计算为两个 softmax 注意力图之间的差异。这有助于消除噪音并促进稀疏注意力模式,从而更好地关注相关上下文。实验表明,Diff Transformer 优于标准 Transformer,特别是在长上下文建模、关键信息检索、幻觉减少和上下文学习等领域。它还提供了更好的鲁棒性,可以解决输入序列中的顺序排列等问题。

Differential Transformer




Diff Transformer 在仅解码器模型结构的基础上引入了差分注意力机制,用两个抵消噪声的 softmax 函数取代了传统的 softmax 注意力。每层都包含差分注意力模块和前馈网络。采用多头差分注意力,每个头的注意力独立处理,并使用 RMSNorm 和 headwise 归一化进行归一化,以保持训练稳定性。

差分注意力机制的灵感来自电子工程中的差分放大器,旨在通过从两个 softmax 函数中减去注意力分数来消除常见噪声。FlashAttention 用于提高效率,而多头差分注意力允许跨不同注意力头实现更丰富的语境化。该架构集成了 LLaMA 等模型的改进,包括 SwiGLU 激活函数和 pre-RMSNorm。

实验




LM Eval Harness 基准的零样本结果表明,与经过良好调整的模型相比,Diff Transformer 的表现更佳。此外,实验表明,在使用可比训练设置以确保公平比较的情况下,DIFF Transformer 在各种任务中的表现始终优于标准 Transformer。




6.8B 大小的 Diff Transformer 实现了与 11B 大小的 Transformer 相当的验证损失,而只需要 62.2% 的参数。同样,7.8B 大小的 Diff Transformer 的性能与 13.1B 大小的 Transformer 相当,而只需要 59.5% 的参数。使用 160B 个 token 训练的 Diff Transformer 实现了与使用 251B 个 token 训练的 Transformer 相当的性能,而仅消耗 63.7% 的训练 token。




Diff Transformer 可以有效利用不断增加的背景。




作者在关键信息检索任务上评估了 Diff Transformer 和标准 Transformer 模型的性能,上下文长度从 8K 到 64K 个 token。结果表明,Diff Transformer 在不同上下文长度下保持稳定的准确率,而标准 Transformer 的准确率则随着上下文长度的增加而下降。例如,在 64K 上下文中深度为 25% 时,Diff Transformer 的准确率比 Transformer 提高了 76%。

此外,注意力分数分析表明,Diff Transformer 为相关答案跨度分配了更高的注意力分数,并降低了注意力噪音,与 Transformer 相比更好地保留了有用信息,尤其是当关键信息位于上下文中的不同位置时。




与 Transformer 相比,Diff Transformer 在摘要和问答中减轻了上下文幻觉。这种改进可能源于 Diff Transformer 更好地关注任务所需的基本信息,而不是无关的上下文。




消融研究:

  • 即使将注意力头的数量减半以保持模型大小,Diff Transformer 在整体和细粒度损失方面都优于 Transformer。
  • 从 Diff Transformer 中删除 GroupNorm 会导致性能下降,因为 GroupNorm 有助于通过对多个 head 之间的不同统计数据进行归一化来稳定训练。相比之下,将 GroupNorm 添加到 Transformer 效果不大。
  • Diff Transformer 的主要改进源于差异化注意力机制,而不是配置变化或规范化方法。
  • 初始化 λ 参数(用于差分注意)的各种策略对验证损失的影响很小,这表明 Diff Transformer 对不同的初始化选择都具有鲁棒性。默认使用值为λinit = 0.8 − 0.6 × exp(−0.3 · (l − 1))

参考:

https://arxiv.org/abs/2410.05258

到此这篇梯度提升和梯度下降(梯度下降的优缺点)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 梯度提升模型(梯度提升模型是回归模型吗)2026-02-21 07:36:05
  • 随机森林 梯度下降(随机森林 梯度提升树)2026-02-21 07:36:05
  • 梯度提升树回归模型(梯度提升树回归模型怎么做)2026-02-21 07:36:05
  • 梯度提升回归算法(梯度提升回归算法的优缺点)2026-02-21 07:36:05
  • 梯度提升树和随机森林的关系(梯度提升树和随机森林的关系)2026-02-21 07:36:05
  • 梯度提升树名词解释(梯度提升算法的理解)2026-02-21 07:36:05
  • 梯度提升模型(梯度提升模型 调参)2026-02-21 07:36:05
  • 梯度提升树分类算法(梯度上升算法)2026-02-21 07:36:05
  • 梯度提升和梯度下降(梯度下降中的梯度是什么)2026-02-21 07:36:05
  • 梯度提升树(梯度提升树算法)2026-02-21 07:36:05
  • 全屏图片