当前位置:网站首页 > R语言数据分析 > 正文

resnet一作(resnet-d)



文章目录

  • 一、ResNeSt
  • 二、ShuffleNet v2
  • 三、FBNet
  • 四、Inception-v4
  • 五、ResNet-D
  • 六、MetaFormer
  • 七、PyramidNet
  • 八、RevNet
  • 九、Convolutional Vision Transformer(CVT)
  • 十、Tokens-To-Token Vision Transformer
  • 十一、Self-Attention Network
  • 十二、MixNet
  • 十三、Multiscale Vision Transformer
  • 十四、gMLP
  • 十五、OverFeat

如何导入resnet在Imagenet上的参数 resnet-d_人工智能

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_02

ShuffleNet v2 是一种针对直接指标(速度)而非间接指标(如 FLOP)进行优化的卷积神经网络。 它建立在 ShuffleNet v1 的基础上,它利用了逐点组卷积、类似瓶颈的结构和通道洗牌操作。 差异如右图所示,包括新的通道分割操作以及将通道洗牌操作进一步移至块下方。

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_03

FBNet 是通过 DNAS 神经架构搜索发现的一种卷积神经架构。 它采用受 MobileNetv2 启发的基本类型图像模型块,该模型利用深度卷积和反向残差结构(请参阅组件)。

如何导入resnet在Imagenet上的参数 resnet-d_CNN_04

Inception-v4 是一种卷积神经网络架构,它建立在 Inception 系列之前的迭代基础上,通过简化架构并使用比 Inception-v3 更多的 inception 模块。

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_05

ResNet-D 是对 ResNet 架构的修改,它利用平均池调整进行下采样。 动机是在未修改的 ResNet 中,下采样块的 1 × 1 卷积忽略了 3/4 的输入特征图,因此对此进行了修改,因此不会忽略任何信息。

如何导入resnet在Imagenet上的参数 resnet-d_<a href='/tag/270'>计算</a>机视觉_06

MetaFormer 是一个从 Transformer 中抽象出来的通用架构,没有指定令牌混合器。

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_07

PyramidNet 是一种卷积网络,其关键思想是通过逐渐增加特征图维度来集中注意力,而不是通过下采样在每个残差单元处急剧增加特征图维度。 此外,在增加特征图维度时,网络架构通过使用零填充身份映射快捷连接,作为普通网络和残差网络的混合体。

如何导入resnet在Imagenet上的参数 resnet-d_Transformer_08

可逆残差网络(或 RevNet)是 ResNet 的变体,其中每一层的激活都可以根据下一层的激活精确重建。 因此,在反向传播期间,大多数层的激活不需要存储在内存中。 结果是网络架构的激活存储需求与深度无关,并且通常比同等大小的 ResNet 小至少一个数量级。

如何导入resnet在Imagenet上的参数 resnet-d_计算机视觉_09

如何导入resnet在Imagenet上的参数 resnet-d_计算机视觉_10

卷积视觉 Transformer (CvT) 是一种将卷积合并到 Transformer 中的架构。 CvT 设计将卷积引入到 ViT 架构的两个核心部分。

首先,Transformers 被划分为多个阶段,形成 Transformers 的层次结构。 每个阶段的开始由一个卷积令牌嵌入组成,该嵌入在 2D 重塑令牌图上执行重叠卷积操作(即,将扁平令牌序列重塑回空间网格),然后进行层归一化。 这使得模型不仅可以捕获局部信息,还可以逐步减少序列长度,同时增加跨阶段标记特征的维度,实现空间下采样,同时增加特征图的数量,就像 CNN 中执行的那样。

其次,Transformer 模块中每个自注意力块之前的线性投影被替换为提出的卷积投影,该投影在 2D 重塑令牌图上采用 s × s 深度可分离卷积运算。 这使得模型能够进一步捕获局部空间上下文并减少注意力机制中的语义歧义。 它还允许管理计算复杂性,因为卷积的步长可用于对键和值矩阵进行二次采样,以将效率提高 4 倍或更多,同时将性能下降降至最低。

如何导入resnet在Imagenet上的参数 resnet-d_计算机视觉_11

T2T-ViT(Tokens-To-Token Vision Transformer)是一种 Vision Transformer,它结合了 1)分层的 Tokens-to-Token (T2T) 转换,通过递归地将相邻的 Tokens 聚合成一个 Token(Tokens)来逐步将图像结构化为 tokens。 -to-Token),这样可以对周围令牌表示的局部结构进行建模,并可以减少令牌长度; 2)经过实证研究后,受 CNN 架构设计启发,为视觉变换器提供了具有深窄结构的高效主干。

如何导入resnet在Imagenet上的参数 resnet-d_Transformer_12

自注意力网络(SANet)提出了用于图像识别的自注意力的两种变体:1)成对自注意力,它概括了标准点积注意力,本质上是一个集合运算符;2)补丁自注意力,它严格地更多 比卷积强大。

如何导入resnet在Imagenet上的参数 resnet-d_CNN_13

MixNet 是一种通过 AutoML 发现的卷积神经网络,它使用 MixConv,而不是常规的深度卷积。

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_14

多尺度视觉变压器(MViT)是一种用于对图像和视频等视觉数据进行建模的变压器架构。 与在整个网络中保持恒定通道容量和分辨率的传统 Transformer 不同,多尺度 Transformer 具有多个通道分辨率缩放阶段。 从输入分辨率和小通道尺寸开始,各阶段分层扩展通道容量,同时降低空间分辨率。 这创建了一个多尺度的特征金字塔,早期层以高空间分辨率运行,以模拟简单的低级视觉信息,而更深层则以空间粗糙但复杂的高维特征运行。

如何导入resnet在Imagenet上的参数 resnet-d_<a href='/tag/188'>算法</a>_15

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_16

如何导入resnet在Imagenet上的参数 resnet-d_人工智能_17

OverFeat 是一种经典的卷积神经网络架构,采用卷积、池化和全连接层。 右图显示了架构细节。

如何导入resnet在Imagenet上的参数 resnet-d_Transformer_18

到此这篇resnet一作(resnet-d)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • treesize free安装出现错误(tree安装包)2025-06-19 07:36:04
  • grid布局自适应宽度(gridview自适应宽度)2025-06-19 07:36:04
  • display:grid 兼容性(display flex 兼容性)2025-06-19 07:36:04
  • stric用法(strict的用法和例句)2025-06-19 07:36:04
  • springbootaop日志(spring boot 操作日志记录)2025-06-19 07:36:04
  • termux启动docker(termux启动linux指令)2025-06-19 07:36:04
  • spark面试题目(spark面试知识点)2025-06-19 07:36:04
  • 圈一怎么打出来word(圈一怎么打出来快捷键)2025-06-19 07:36:04
  • dtr英文缩写(tdr英文什么单词缩写)2025-06-19 07:36:04
  • cruise2014安装教程(cruise2015安装教程)2025-06-19 07:36:04
  • 全屏图片