![]()
Differential Transformer 引入了一种新的注意力机制,通过减少不相关的上下文来改进传统的 Transformer。它通过使用差分注意力机制来实现这一点,其中注意力分数计算为两个 softmax 注意力图之间的差异。这有助于消除噪音并促进稀疏注意力模式,从而更好地关注相关上下文。实验表明,Diff Transformer 优于标准 Transformer,特别是在长上下文建模、关键信息检索、幻觉减少和上下文学习等领域。它还提供了更好的鲁棒性,可以解决输入序列中的顺序排列等问题。
Differential Transformer
![]()
Diff Transformer 在仅解码器模型结构的基础上引入了差分注意力机制,用两个抵消噪声的 softmax 函数取代了传统的 softmax 注意力。每层都包含差分注意力模块和前馈网络。采用多头差分注意力,每个头的注意力独立处理,并使用 RMSNorm 和 headwise 归一化进行归一化,以保持训练稳定性。
差分注意力机制的灵感来自电子工程中的差分放大器,旨在通过从两个 softmax 函数中减去注意力分数来消除常见噪声。FlashAttention 用于提高效率,而多头差分注意力允许跨不同注意力头实现更丰富的语境化。该架构集成了 LLaMA 等模型的改进,包括 SwiGLU 激活函数和 pre-RMSNorm。
实验
![]()
LM Eval Harness 基准的零样本结果表明,与经过良好调整的模型相比,Diff Transformer 的表现更佳。此外,实验表明,在使用可比训练设置以确保公平比较的情况下,DIFF Transformer 在各种任务中的表现始终优于标准 Transformer。
![]()
6.8B 大小的 Diff Transformer 实现了与 11B 大小的 Transformer 相当的验证损失,而只需要 62.2% 的参数。同样,7.8B 大小的 Diff Transformer 的性能与 13.1B 大小的 Transformer 相当,而只需要 59.5% 的参数。使用 160B 个 token 训练的 Diff Transformer 实现了与使用 251B 个 token 训练的 Transformer 相当的性能,而仅消耗 63.7% 的训练 token。
![]()
Diff Transformer 可以有效利用不断增加的背景。
![]()
作者在关键信息检索任务上评估了 Diff Transformer 和标准 Transformer 模型的性能,上下文长度从 8K 到 64K 个 token。结果表明,Diff Transformer 在不同上下文长度下保持稳定的准确率,而标准 Transformer 的准确率则随着上下文长度的增加而下降。例如,在 64K 上下文中深度为 25% 时,Diff Transformer 的准确率比 Transformer 提高了 76%。
此外,注意力分数分析表明,Diff Transformer 为相关答案跨度分配了更高的注意力分数,并降低了注意力噪音,与 Transformer 相比更好地保留了有用信息,尤其是当关键信息位于上下文中的不同位置时。
![]()
与 Transformer 相比,Diff Transformer 在摘要和问答中减轻了上下文幻觉。这种改进可能源于 Diff Transformer 更好地关注任务所需的基本信息,而不是无关的上下文。
![]()
消融研究:
- 即使将注意力头的数量减半以保持模型大小,Diff Transformer 在整体和细粒度损失方面都优于 Transformer。
- 从 Diff Transformer 中删除 GroupNorm 会导致性能下降,因为 GroupNorm 有助于通过对多个 head 之间的不同统计数据进行归一化来稳定训练。相比之下,将 GroupNorm 添加到 Transformer 效果不大。
- Diff Transformer 的主要改进源于差异化注意力机制,而不是配置变化或规范化方法。
- 初始化 λ 参数(用于差分注意)的各种策略对验证损失的影响很小,这表明 Diff Transformer 对不同的初始化选择都具有鲁棒性。默认使用值为λinit = 0.8 − 0.6 × exp(−0.3 · (l − 1))
参考:
https://arxiv.org/abs/2410.05258
到此这篇梯度提升和梯度下降(梯度下降的优缺点)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/jszy-jnts/35644.html