rmsprop算法怎么读（priorelem算法）

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | RUC AI Box

作者｜都一凡‍‍‍‍‍‍‍‍

机构｜中国人民大学

研究方向｜多模态大模型

论文题目：Exploring the Design Space of Visual Context Representation in Video MLLMs

论文链接：

https://arxiv.org/pdf/2410.13694

视频多模态大语言模型（MLLMs）在各种下游任务中展现了卓越的视频语义理解能力。尽管取得了很大进展，但在视觉上下文表示方面仍缺乏系统性的研究。这里的视觉上下文表示，指的是视频中的帧和每一帧的视觉向量（视觉token）共同构成了视频大模型的视觉窗口，即窗口长度大于等于帧数与视觉 token 数的乘积。在这篇论文中，我们探索了视觉上下文表示的设计空间，旨在通过找到更有效的表示方案来提升视频 MLLMs 的性能。

首先，我们将视觉上下文表示任务形式化为一个约束优化问题，在给定最大视觉上下文窗口大小的前提下，把语言模型的损失建模为帧数和每帧的token数的函数。接着，我们分别研究了帧数和视觉token数的scaling law，并通过大量的实验拟合出相应的函数曲线。

此外，我们还研究了帧数和token数二者的联合效应，并推导出二者的最优解。实验结果表明理论的最优解为模型训练提供了一个较好的初始点。

目前的视频MLLM通常采用与图像MLLM同样的架构，即把视频转化成多个帧，每一帧独立的用图像编码器编码成若干个视觉向量。把所有帧的视觉向量拼接起来，就构成了本文所说的视觉上下文。为了研究视觉上下文对模型的影响，在固定架构的前提下，首先需要研究两个子问题：

Q1. 改变帧数对模型效果有什么影响？
Q2. 改变视觉token的数量对模型效果有什么影响？

我们固定帧数，变动每帧的视觉token数，从而研究视觉token的scaling law。具体而言，我们使用两种方法改变单帧的token数：基于采样的方法和基于压缩的方法，如下图所示。

在这一部分中，我们首先通过图像编码器将每张图片转换为大小为 27×27 的向量矩阵，然后通过采样或者压缩的方式从中得到以下几种数量的向量矩阵：1²、2²、3²、4²、5²、6²、7²、9² 和 14²。同时，我们将帧数 T=32 固定不变，从每个视频中均匀采样帧，每种方法共训练了 9 个视频 MLLMs。

我们提出了以下函数来拟合视觉token的scaling law：

得到的结果如下图所示：

2.1.1 基于采样的方法

拟合的参数为：

，表明拟合结果较好：当视觉token数量增加时，损失值呈现出类似幂律的下降趋势。

/section>

section style="letter-spacing: 0em;text-indent: 0em;padding-top: 8px;padding-bottom: 8px;margin: 8px;line-height: 1.75em;">

下表展示了在长视频理解的benchmark上改变视觉token数量的对模型效果的影响。总体来看，随着视觉token数量的增加，模型性能有所提升，特别是在token数量从 1 增加到 4 时提升最为明显。然而，有趣的是，当token数量超过某个阈值后，性能反而开始下降。例如，使用 196 个token的效果比使用 49 个token还要差，尽管使用 196 个token时的语言模型损失明显小于使用 49 个token时的损失，这表明模型loss并不总是能直接反映其在下游任务中的真实表现。

/section>

section style="letter-spacing: 0em;text-indent: 0em;padding-top: 8px;padding-bottom: 8px;text-align: center;margin: 8px;line-height: 1.75em;">

表1. 采样视觉token对模型效果的影响

/section>

section style="background-attachment: scroll;background-clip: border-box;background-image: none;background-origin: padding-box;background-position: 0% 0%;background-repeat: no-repeat;background-size: auto;width: auto;font-size: 16px;color: rgb(0, 0, 0);word-spacing: 0em;letter-spacing: 0em;word-break: break-word;margin: 8px;line-height: 1.75em;">

/section>

h4 data-tool="mdnice编辑器" style="margin: 8px;line-height: 1.75em;">

2.1.2 基于压缩的方法

section style="letter-spacing: 0em;text-indent: 0em;padding-top: 8px;padding-bottom: 8px;margin: 8px;line-height: 1.75em;">

我们采用了 MeanPooling 策略来压缩视觉token，这种方法被目前的许多MLLM广泛采用，其优点是不引入额外的参数，避免了其他因素对实验结果的影响。我们在编码后的视觉token上使用不同的kernel size进行 MeanPooling，从而得到图像的压缩表示。具体来说，每张图像会被编码为 27×27 的视觉token矩阵，然后我们对其应用的 MeanPooling，步长也为，其中。这会将每张图像压缩成 1²、2²、3²、4²、5²、6²、7²、9² 和 14² 个token表示。为了保证能和基于采样的方法进行公平比较，其他实验条件保持不变。

/section>

section style="letter-spacing: 0em;text-indent: 0em;padding-top: 8px;padding-bottom: 8px;margin: 8px;line-height: 1.75em;">

拟合得到的参数为：

表明拟合结果较好。相比于上面提到的基于采样方法的参数

，压缩方法的

明显更大。这意味着使用压缩方法增加token数量时，损失会下降得更快，在上面的曲线图中也能明显的看出。此外，

压缩方法在相同的视觉token数量下，总是比采样方法得到的loss更低

。这是因为压缩方法聚合了所有token中的信息，但是采样的方法直接丢弃部分视觉token，前者更有利于模型学习视觉特征，加速收敛速度。

随着视觉token数量的增加，模型能力持续提升

。这与基于采样的方法明显不同，进一步突出了压缩方法的优势。Benchmark上的结果和根据loss得到的结论一致，表明压缩方法在性能上具有更明显的优势。

figure data-tool="mdnice编辑器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;">

Take-away Findings

section style="overflow-x: auto;padding: 16px;color: rgb(51, 51, 51);background: rgb(248, 248, 248);display: -webkit-box;font-family: Consolas, Monaco, Menlo, monospace;font-size: 12px;margin: 8px;line-height: 1.75em;">

- 增加视觉token的数量可以显著提升性能。基于采样的方法在 49 个token时达到峰值，而基于压缩的方法即使使用 196 个token也没有出现性能饱和。
- 当视觉上下文窗口大小受限时，基于压缩方法能够用更少的token有效保留更多的视觉信息，得到更好的表现。

/section>

，改变

来探索帧数的scaling law。仍然是考虑基于采样和基于压缩的方法，如下图所示：

img src="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTZyViaohd2HxGOwxtfDibcTIzr3TkW0vnG2pFyjY0WJOxRp1r1tMay1ZA/640?wx_fmt=png&from=appmsg" class="rich_pages wxw-img" data-imgfileid="100107770" data-ratio="0.8366197183098592" data-src="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTZyViaohd2HxGOwxtfDibcTIzr3TkW0vnG2pFyjY0WJOxRp1r1tMay1ZA/640?wx_fmt=png&from=appmsg" data-type="png" data-w="710" style="display: block;margin-right: auto;margin-left: auto;height: auto !important;" width="380">

img src="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTmDWibvvvUvcZMb0CDVu6u8oAPfB3Whla3K5CYFzgfCQuJibickzDReDxw/640?wx_fmt=png&from=appmsg" class="rich_pages wxw-img" data-imgfileid="100107768" data-ratio="0.743073047858942" data-src="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTmDWibvvvUvcZMb0CDVu6u8oAPfB3Whla3K5CYFzgfCQuJibickzDReDxw/640?wx_fmt=png&from=appmsg" data-type="png" data-w="794" style="display: block;margin-right: auto;margin-left: auto;height: auto !important;" width="380">

设置为 {1, 8, 16, 32, 48, 64, 96, 128}，来探索scaling效果。

与帧数

进行拟合，得到以下参数：

表明拟合效果较好。如上图所示，拟合曲线显示

随着帧数

的增加而减少，并呈现出幂律趋势。

img src="https://mmbiz.qpic.cn/mmbiz_jpg/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKT7WGk5kRtSDIIoIq5jiahWl4QIYu79dNgyegc6Npeb2PuicpxnloMvUSg/640?wx_fmt=jpeg" class="rich_pages wxw-img" data-croporisrc="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKT4KnadxOmyOR6RnwnSyQTVI8LNcLImw1aVPqF06EZ1V07o2DMKuXv3w/640?wx_fmt=png&from=appmsg" data-cropx1="0" data-cropx2="1080" data-cropy1="7.741935483870967" data-cropy2="313.54838709677415" data-imgfileid="100107771" data-ratio="0.28425925925925927" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKT7WGk5kRtSDIIoIq5jiahWl4QIYu79dNgyegc6Npeb2PuicpxnloMvUSg/640?wx_fmt=jpeg" data-type="jpeg" data-w="1080" style="display: block;margin-right: auto;margin-left: auto;border-style: none;border-width: 3px;border-color: rgba(0, 0, 0, 0.4);border-radius: 0px;object-fit: fill;box-shadow: rgba(0, 0, 0, 0) 0px 0px 0px 0px;width: 558px;height: 158px;height: auto !important;">

，而这类任务无法仅通过增加帧数有效解决。总体来看，与增加每帧的视觉token数相比，

对模型性能的提升更加显著。

来获得更好的性能。这个权衡将在下面得到进一步的验证。

帧，编码之后沿时间维度进行均值池化，将视频压缩为

帧。时间池化的核大小

取决于

和

的比例：

。

br />由于计算内存的限制，我们将

设为 128，并选择

来探索帧数的扩展规律。为了与基于采样的方法进行公平比较，我们也将每帧的视觉token数量减少到 49。在实际操作中，我们使用

，而不是先进行空间均值池化后再进行时间池化，以避免feature map的过度平滑。

可以更好地描述其关系。我们根据帧数

拟合模型损失，得到

，

表明拟合较好。同时，对比

与

的方法曲线，压缩方法始终表现出更低的损失。这一现象揭示了视频数据中的

，即便将时间信息压缩到更少的帧中，仍能有效保留其关键内容。

img src="https://mmbiz.qpic.cn/mmbiz_jpg/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTq7Fsh0ic2BWkZyphiaCt9uAI3lXRprk2NdLMW7Zp2CocmpvIZMlY8tTg/640?wx_fmt=jpeg" class="rich_pages wxw-img" data-croporisrc="https://mmbiz.qpic.cn/mmbiz_png/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTRIicgmcrDWQlHw1CoKI4jGWmhKREMgp6hIuiaTmCOAGOSjAnXwO2jfYw/640?wx_fmt=png&from=appmsg" data-cropx1="0" data-cropx2="1080" data-cropy1="5.806451612903225" data-cropy2="280.64516129032256" data-imgfileid="100107773" data-ratio="0.25462962962962965" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/G7ia3FZ0o0ObRwGlflEdGkhcmSziaAKTq7Fsh0ic2BWkZyphiaCt9uAI3lXRprk2NdLMW7Zp2CocmpvIZMlY8tTg/640?wx_fmt=jpeg" data-type="jpeg" data-w="1080" style="display: block;margin-right: auto;margin-left: auto;border-style: none;border-width: 3px;border-color: rgba(0, 0, 0, 0.4);border-radius: 0px;object-fit: fill;box-shadow: rgba(0, 0, 0, 0) 0px 0px 0px 0px;width: 558px;height: 142px;height: auto !important;">

- 在有限的视觉上下文窗口中，基于压缩的方法比基于采样的方法在更少帧数的情况下保留更多时间信息。

建模为

和

的函数。在给定最大视觉上下文窗口大小

的情况下，

和

必须满足以下约束条件：

。由于我们希望在LLM的最大输入长度或部署资源受限的情况下，同时确定视觉token数量和帧数的最佳组合，这等价于找到损失

的极小值点：

section data-formula="T_{\text{opt}}(L), M_{\text{opt}}(L) = \underset{T,M \text{ s.t. } T \times M < L}{\operatorname{arg min}} \mathcal{L}(T,M),

" style="text-align: center;overflow: auto;">

embed style="vertical-align: -2.473ex;width: 40.875ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/wJibWkqN1bUOUh2ph1dntLv6FgAxaibaicwxj7ASIxBxNKEwK06Yr4Zw1ShHdgxEcYolVR6Eia72ibjB18NQxNa36rcj5zfo12qSY/0?wx_fmt=svg&from=appmsg" data-type="svg+xml" data-imgfileid="100107525">

g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">

/g>

g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">

/g>

g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">

/g>

g data-mml-node="msub">

/g>

g data-mml-node="mo" transform="translate(1785.9, 0)">

/g>

g data-mml-node="mn" transform="translate(2841.7, 0)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mo" transform="translate(917.8, 0)">

/g>

g data-mml-node="mn" transform="translate(1973.6, 0)">

/g>

g data-mml-node="msub">

/g>

g data-mml-node="mo" transform="translate(1540.6, 0)">

/g>

g data-mml-node="mn" transform="translate(2596.4, 0)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mo" transform="translate(843.8, 0)">

/g>

g data-mml-node="mn" transform="translate(1899.6, 0)">

/g>

g data-mml-node="msub">

/g>

g data-mml-node="mo" transform="translate(1362.3, 0)">

/g>

g data-mml-node="mn" transform="translate(2418.1, 0)">

/g>

g data-mml-node="msup">

/g>

g data-mml-node="mo" transform="translate(1440.3, 0)">

/g>

g data-mml-node="mn" transform="translate(2496.1, 0)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mo" transform="translate(981.8, 0)">

/g>

g data-mml-node="mn" transform="translate(2037.6, 0)">

/g>

g data-mml-node="mo" transform="translate(3537.6, 0)">

/g>

g data-mml-node="mi" transform="translate(3982.2, 0)">

/g>

g data-mml-node="mo" transform="translate(5311, 0)">

/g>

g data-mml-node="mn" transform="translate(6366.8, 0)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mo" transform="translate(981.8, 0)">

/g>

g data-mml-node="mn" transform="translate(2037.6, 0)">

/g>

g data-mml-node="mo" transform="translate(3037.6, 0)">

/g>

g data-mml-node="mi" transform="translate(3482.2, 0)">

/g>

g data-mml-node="mo" transform="translate(4811, 0)">

/g>

g data-mml-node="mn" transform="translate(5866.8, 0)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mo" transform="translate(1273.2, 0)">

/g>

g data-mml-node="mi" transform="translate(2273.4, 0)">

/g>

g data-mml-node="mo" transform="translate(3255.2, 0)">

/g>

g data-mml-node="mi" transform="translate(4311, 0)">

/g>

g data-mml-node="TeXAtom" data-mjx-texclass="ORD">

/g>

g data-mml-node="mo" transform="translate(690, 0)">

/g>

g data-mml-node="mi" transform="translate(1079, 0)">

/g>

g data-mml-node="mo" transform="translate(2130, 0)">

/g>

g data-mml-node="mi" transform="translate(2574.7, 0)">

/g>

g data-mml-node="mo" transform="translate(3278.7, 0)">

/g>

path data-c="54" d="M40 437Q21 437 21 445Q21 450 37 501T71 602L88 651Q93 669 101 677H569H659Q691 677 697 676T704 667Q704 661 687 553T668 444Q668 437 649 437Q640 437 637 437T631 442L629 445Q629 451 635 490T641 551Q641 586 628 604T573 629Q568 630 515 631Q469 631 457 630T439 622Q438 621 368 343T298 60Q298 48 386 46Q418 46 427 45T436 36Q436 31 433 22Q429 4 424 1L422 0Q419 0 415 0Q410 0 363 1T228 2Q99 2 64 0H49Q43 6 43 9T45 27Q49 40 55 46H83H94Q174 46 189 55Q190 56 191 56Q196 59 201 76T241 233Q258 301 269 344Q339 619 339 625Q339 630 310 630H279Q212 630 191 624Q146 614 121 583T67 467Q60 445 57 441T43 437H40Z">

/path>

g data-mml-node="mtext">

/g>

path data-c="4D" d="M289 629Q289 635 232 637Q208 637 201 638T194 648Q194 649 196 659Q197 662 198 666T199 671T201 676T203 679T207 681T212 683T220 683T232 684Q238 684 262 684T307 683Q386 683 398 683T414 678Q415 674 451 396L487 117L510 154Q534 190 574 254T662 394Q837 673 839 675Q840 676 842 678T846 681L852 683H948Q965 683 988 683T1017 684Q1051 684 1051 673Q1051 668 1048 656T1045 643Q1041 637 1008 637Q968 636 957 634T939 623Q936 618 867 340T797 59Q797 55 798 54T805 50T822 48T855 46H886Q892 37 892 35Q892 19 885 5Q880 0 869 0Q864 0 828 1T736 2Q675 2 644 2T609 1Q592 1 592 11Q592 13 594 25Q598 41 602 43T625 46Q652 46 685 49Q699 52 704 61Q706 65 742 207T813 490T848 631L654 322Q458 10 453 5Q451 4 449 3Q444 0 433 0Q418 0 415 7Q413 11 374 317L335 624L267 354Q200 88 200 79Q206 46 272 46H282Q288 41 289 37T286 19Q282 3 278 1Q274 0 267 0Q265 0 255 0T221 1T157 2Q127 2 95 1T58 0Q43 0 39 2T35 11Q35 13 38 25T43 40Q45 46 65 46Q135 46 154 86Q158 92 223 354T289 629Z">

/path>

g data-mml-node="mtext">

/g>

MLNLP 社区

是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

到此这篇rmsprop算法怎么读（priorelem算法）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： nrm不是内部或外部命令（rm 不是内部或外部命令,也不是可运行的程序）

下一篇： sem_wait返回值（wait_event_interruptible返回值）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/rfx/57387.html

2.1.1 基于采样的方法

相关文章：